論文の概要: Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries
- arxiv url: http://arxiv.org/abs/2102.08065v1
- Date: Tue, 16 Feb 2021 10:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:04:05.992599
- Title: Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries
- Title(参考訳): 注意ディクショナリ付きエゴセントリックビデオにおける物体の動作認識の学習
- Authors: Swathikiran Sudhakaran and Sergio Escalera and Oswald Lanz
- Abstract要約: ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。
フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。
Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
- 参考スコア(独自算出の注目度): 51.48859591280838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EgoACO, a deep neural architecture for video action recognition
that learns to pool action-context-object descriptors from frame level features
by leveraging the verb-noun structure of action labels in egocentric video
datasets. The core component of EgoACO is class activation pooling (CAP), a
differentiable pooling operation that combines ideas from bilinear pooling for
fine-grained recognition and from feature learning for discriminative
localization. CAP uses self-attention with a dictionary of learnable weights to
pool from the most relevant feature regions. Through CAP, EgoACO learns to
decode object and scene context descriptors from video frame features. For
temporal modeling in EgoACO, we design a recurrent version of class activation
pooling termed Long Short-Term Attention (LSTA). LSTA extends convolutional
gated LSTM with built-in spatial attention and a re-designed output gate.
Action, object and context descriptors are fused by a multi-head prediction
that accounts for the inter-dependencies between noun-verb-action structured
labels in egocentric video datasets. EgoACO features built-in visual
explanations, helping learning and interpretation. Results on the two largest
egocentric action recognition datasets currently available, EPIC-KITCHENS and
EGTEA, show that by explicitly decoding action-context-object descriptors,
EgoACO achieves state-of-the-art recognition performance.
- Abstract(参考訳): 本稿では,アクションラベルの動詞-名詞構造を利用して,フレームレベルの特徴からアクション-コンテキスト-オブジェクト記述子をプールすることを学ぶ,ビデオアクション認識のための深層ニューラルネットワークであるegoacoを提案する。
EgoACOの中核となるコンポーネントはクラスアクティベーションプーリング(CAP)であり、双線形プールから細粒度認識、特徴学習から識別的ローカライゼーションへのアイデアを組み合わせられる。
CAPは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
CAPを通じて、EgoACOはビデオフレーム機能からオブジェクトとシーンコンテキストディスクリプタをデコードすることを学ぶ。
EgoACOの時系列モデリングでは、Long Short-Term Attention(LSTA)と呼ばれるクラスアクティベーションプールの繰り返しバージョンを設計します。
LSTAは、空間的注意と再設計された出力ゲートを内蔵した畳み込みゲートLSTMを拡張します。
アクション、オブジェクト、コンテキストディスクリプタは、エゴセントリックビデオデータセット内の名詞-動詞-アクション構造ラベル間の依存性を記述したマルチヘッド予測によって融合されます。
EgoACOは、視覚的な説明を内蔵し、学習と解釈を助けます。
EPIC-KITCHENSとEGTEAという、現在利用可能な2つの大きなエゴセントリックなアクション認識データセットの結果は、アクションコンテキストオブジェクト記述子を明示的にデコードすることで、EgoACOが最先端の認識性能を達成することを示している。
関連論文リスト
- Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Action Scene Graphs for Long-Form Understanding of Egocentric Videos [23.058999979457546]
Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。
実験とアノテーションを複製するデータセットとコードを公開します。
論文 参考訳(メタデータ) (2023-12-06T10:01:43Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation [124.07372905781696]
行動原子概念学習(Actical Atomic-Concept Learning, ACL)は、視覚的な観察を行動原子の概念にマッピングしてアライメントを促進する。
AACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立する。
論文 参考訳(メタデータ) (2023-02-13T03:08:05Z) - Locally Enhanced Self-Attention: Rethinking Self-Attention as Local and
Context Terms [18.857745441710076]
自己認識はコンピュータビジョンモデルで広く使われている。
本稿では,局所強化自己意識(LESA)を提案する。
ImageNetとCOCOの結果は、画像認識、オブジェクト検出、インスタンスセグメンテーションのタスクにおいて、畳み込みや自己注意ベースラインよりもLESAの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:00:00Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。