論文の概要: Universal Prototype Transport for Zero-Shot Action Recognition and
Localization
- arxiv url: http://arxiv.org/abs/2203.03971v2
- Date: Tue, 1 Aug 2023 09:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 18:38:27.554045
- Title: Universal Prototype Transport for Zero-Shot Action Recognition and
Localization
- Title(参考訳): ゼロショット行動認識と局所化のためのユニバーサルプロトタイプトランスポート
- Authors: Pascal Mettes
- Abstract要約: この研究は、トレーニング例が得られない場合、ビデオ内のアクションカテゴリを認識する問題に対処する。
主なアイデアは、見知らぬアクションのセマンティックプロトタイプを、すべてのテストビデオの配信にマッチさせることである。
ユニバーサルアクションモデルでは、未確認のアクションプロトタイプから全ての投影されたテストビデオまで、超球面の最適輸送を通してマッチングすることを提案する。
- 参考スコア(独自算出の注目度): 16.630571993283695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the problem of recognizing action categories in videos
when no training examples are available. The current state-of-the-art enables
such a zero-shot recognition by learning universal mappings from videos to a
semantic space, either trained on large-scale seen actions or on objects. While
effective, we find that universal action and object mappings are biased to
specific regions in the semantic space. These biases lead to a fundamental
problem: many unseen action categories are simply never inferred during
testing. For example on UCF-101, a quarter of the unseen actions are out of
reach with a state-of-the-art universal action model. To that end, this paper
introduces universal prototype transport for zero-shot action recognition. The
main idea is to re-position the semantic prototypes of unseen actions by
matching them to the distribution of all test videos. For universal action
models, we propose to match distributions through a hyperspherical optimal
transport from unseen action prototypes to the set of all projected test
videos. The resulting transport couplings in turn determine the target
prototype for each unseen action. Rather than directly using the target
prototype as final result, we re-position unseen action prototypes along the
geodesic spanned by the original and target prototypes as a form of semantic
regularization. For universal object models, we outline a variant that defines
target prototypes based on an optimal transport between unseen action
prototypes and object prototypes. Empirically, we show that universal prototype
transport diminishes the biased selection of unseen action prototypes and
boosts both universal action and object models for zero-shot classification and
spatio-temporal localization.
- Abstract(参考訳): この研究は、トレーニング例がない場合にビデオ内のアクションカテゴリを認識する問題に対処する。
現在の最先端技術は、ビデオからセマンティック空間への普遍的なマッピングを学習することで、このようなゼロショット認識を可能にする。
有効ではあるが、普遍的なアクションとオブジェクトマッピングは意味空間内の特定の領域に偏っている。
多くの目に見えないアクションカテゴリは、テスト中に単純に推論されることはない。
例えば、UCF-101では、目に見えないアクションの4分の1は最先端のユニバーサルアクションモデルでは到達できない。
そこで本稿では,ゼロショット動作認識のためのユニバーサルプロトタイプトランスポートを提案する。
主なアイデアは、セマンティクスのプロトタイプをすべてのテストビデオの配信と一致させることで再配置することだ。
ユニバーサルアクションモデルでは、未確認のアクションプロトタイプから投影されたテストビデオの集合への超球面的最適輸送を通して分布を一致させることを提案する。
結果として生じる輸送結合は、各未確認アクションのターゲットプロトタイプを決定する。
最終結果としてターゲットプロトタイプを直接使用するのではなく,原型および対象プロトタイプにまたがる測地線に沿って,意味的正則化の一形態として,目に見えないアクションプロトタイプを再配置する。
汎用オブジェクトモデルでは,対象プロトタイプと対象プロトタイプの最適なトランスポートに基づいて,対象プロトタイプを定義する手法を概説する。
実験により、ユニバーサルプロトタイプトランスポートは、目に見えないアクションプロトタイプのバイアス選択を減らし、ゼロショット分類と時空間化のためのユニバーサルアクションモデルとオブジェクトモデルの両方を増強することを示した。
関連論文リスト
- Negative Prototypes Guided Contrastive Learning for WSOD [8.102080369924911]
近年,画像レベルのアノテーションのみを持つ弱監視対象検出(WSOD)が注目されている。
本稿では,Native Prototypes Guided Contrastive Learning Architectureを提案する。
提案手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-04T08:16:26Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Mixture of Gaussian-distributed Prototypes with Generative Modelling for Interpretable and Trustworthy Image Recognition [15.685927265270085]
ガウス分布プロトタイプ(MGProto)の混合(mixture of Gaussian-Distributed Prototypes)と呼ばれるプロトタイプ分布を学習するための新しい生成パラダイムを提案する。
MGProtoは最先端の画像認識とOoD検出性能を実現し,解釈可能性の向上を実現している。
論文 参考訳(メタデータ) (2023-11-30T11:01:37Z) - ProtoPFormer: Concentrating on Prototypical Parts in Vision Transformers
for Interpretable Image Recognition [32.34322644235324]
プロトタイプ部分ネットワーク(ProtoPNet)は、説明可能な人工知能(XAI)のための自己探索的特性のため、広く注目され、多くのフォローアップ研究が進められている。
視覚変換器(ViT)のバックボーンに直接ProtoPNetを適用する場合、学習されたプロトタイプは背景によって起動される確率が比較的高く、前景にはあまり注意を払わない。
本稿では,プロトタイプ部分変換器(ProtoPFormer)を提案する。
論文 参考訳(メタデータ) (2022-08-22T16:36:32Z) - Automatically Discovering Novel Visual Categories with Self-supervised
Prototype Learning [68.63910949916209]
本稿では,大規模な画像収集において未知のカテゴリを識別することを目的とした,新しいカテゴリ発見(NCD)の課題に取り組む。
本稿では,プロトタイプ表現学習とプロトタイプ自己学習という,2つの主要な段階からなる適応型プロトタイプ学習手法を提案する。
本研究では,4つのベンチマークデータセットについて広範な実験を行い,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-08-01T16:34:33Z) - Compound Prototype Matching for Few-shot Action Recognition [29.55674018426053]
アクション認識は,少数のラベル付きトレーニングサンプルのみを用いて,新しいアクションクラスを認識することを目的としている。
本稿では,まず,各映像をグローバルプロトタイプ群と集中プロトタイプ群からなる複合プロトタイプ群にまとめる手法を提案する。
論文 参考訳(メタデータ) (2022-07-12T13:17:38Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Universal-Prototype Augmentation for Few-Shot Object Detection [128.4592084104352]
Few-shot Object Detection (FSOD)は、ラベル付きサンプルの少ない新しいオブジェクト検出のパフォーマンスを強化することを目的とする。
少数のサンプルの制約を緩和するため、新しいオブジェクトの学習機能の一般化能力の向上が重要な役割を果たす。
我々は,すべての対象カテゴリから学習した新しいプロトタイプ,すなわちユニバーサルプロトタイプを提案する。
論文 参考訳(メタデータ) (2021-03-01T15:35:36Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。