論文の概要: Zero-Shot Action Recognition with Transformer-based Video Semantic
Embedding
- arxiv url: http://arxiv.org/abs/2203.05156v1
- Date: Thu, 10 Mar 2022 05:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-12 01:49:25.922694
- Title: Zero-Shot Action Recognition with Transformer-based Video Semantic
Embedding
- Title(参考訳): トランスフォーマーを用いたビデオセマンティック埋め込みによるゼロショット動作認識
- Authors: Keval Doshi and Yasin Yilmaz
- Abstract要約: 現実的な視点から、帰納的ゼロショット動作認識問題を包括的に考察する。
具体的には,ゼロショット動作認識のための具体的定式化を提唱する。
本稿では,長期間の時間依存性を効率的に捉えることができる新しいエンドツーエンド学習型トランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 36.24563211765782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While video action recognition has been an active area of research for
several years, zero-shot action recognition has only recently started gaining
traction. However, there is a lack of a formal definition for the zero-shot
learning paradigm leading to uncertainty about classes that can be considered
as previously unseen. In this work, we take a new comprehensive look at the
inductive zero-shot action recognition problem from a realistic standpoint.
Specifically, we advocate for a concrete formulation for zero-shot action
recognition that avoids an exact overlap between the training and testing
classes and also limits the intra-class variance; and propose a novel
end-to-end trained transformer model which is capable of capturing long range
spatiotemporal dependencies efficiently, contrary to existing approaches which
use 3D-CNNs. The proposed approach outperforms the existing state-of-the-art
algorithms in many settings on all benchmark datasets by a wide margin.
- Abstract(参考訳): ビデオのアクション認識はここ数年研究の活発な領域であるが、ゼロショットのアクション認識が普及し始めたのはつい最近である。
しかし、ゼロショット学習パラダイムには形式的な定義が欠如しており、それまで見つからなかったクラスに対する不確実性につながっている。
本研究では,現実的な視点から,帰納的ゼロショット動作認識問題に対する包括的考察を行う。
具体的には、ゼロショット動作認識のための具体的な定式化を提案し、3D-CNNを使用する既存のアプローチとは対照的に、長距離時空間依存性を効率的に捉えることができる新しいエンドツーエンドトレーニングトランスフォーマーモデルを提案する。
提案手法は、すべてのベンチマークデータセットにおいて、既存の最先端アルゴリズムよりも幅広いマージンで性能を向上する。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Open Set Action Recognition via Multi-Label Evidential Learning [25.15753429188536]
MULE(MUlti-Label Evidential Learning)を用いたオープンセット行動認識と新規性検出のための新しい手法を提案する。
我々のBeta Evidential Neural Networkは、アクター-コンテキスト-オブジェクト関係表現に基づくベータ密度によるマルチアクション不確かさを推定する。
提案手法は,シングル/マルチアクタ,シングル/マルチアクション設定において有望な性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T18:34:18Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - DirecFormer: A Directed Attention in Transformer Approach to Robust
Action Recognition [22.649489578944838]
この研究は、堅牢なアクション認識のための、エンドツーエンドのトランスフォーマーベースのDirected Attentionフレームワークを提案する。
本研究の貢献は3倍であり、まず、順序付けられた時間的学習問題の問題を行動認識問題に導入する。
第二に、人間の行動を正しい順番で理解し、注意を向けるために、新しい方向性注意機構が導入された。
論文 参考訳(メタデータ) (2022-03-19T03:41:48Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - A New Split for Evaluating True Zero-Shot Action Recognition [45.815342448662946]
未確認テストクラスとトレーニングおよび事前学習クラスの間に重複のない、真のゼロショット動作認識のための新しい分割を提案する。
提案するUCF101およびHMDB51に対するTrue Zero-Shot (TruZe) Splitに関する最近のアプローチをベンチマークする。
論文 参考訳(メタデータ) (2021-07-27T18:22:39Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。