Fugu-MT 論文翻訳(概要): Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries

論文の概要: Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries

arxiv url: http://arxiv.org/abs/2102.08065v1
Date: Tue, 16 Feb 2021 10:26:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 15:04:05.992599
Title: Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries
Title（参考訳）: 注意ディクショナリ付きエゴセントリックビデオにおける物体の動作認識の学習
Authors: Swathikiran Sudhakaran and Sergio Escalera and Oswald Lanz
Abstract要約: ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。 Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
参考スコア（独自算出の注目度）: 51.48859591280838
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present EgoACO, a deep neural architecture for video action recognition that learns to pool action-context-object descriptors from frame level features by leveraging the verb-noun structure of action labels in egocentric video datasets. The core component of EgoACO is class activation pooling (CAP), a differentiable pooling operation that combines ideas from bilinear pooling for fine-grained recognition and from feature learning for discriminative localization. CAP uses self-attention with a dictionary of learnable weights to pool from the most relevant feature regions. Through CAP, EgoACO learns to decode object and scene context descriptors from video frame features. For temporal modeling in EgoACO, we design a recurrent version of class activation pooling termed Long Short-Term Attention (LSTA). LSTA extends convolutional gated LSTM with built-in spatial attention and a re-designed output gate. Action, object and context descriptors are fused by a multi-head prediction that accounts for the inter-dependencies between noun-verb-action structured labels in egocentric video datasets. EgoACO features built-in visual explanations, helping learning and interpretation. Results on the two largest egocentric action recognition datasets currently available, EPIC-KITCHENS and EGTEA, show that by explicitly decoding action-context-object descriptors, EgoACO achieves state-of-the-art recognition performance.
Abstract（参考訳）: 本稿では,アクションラベルの動詞-名詞構造を利用して,フレームレベルの特徴からアクション-コンテキスト-オブジェクト記述子をプールすることを学ぶ,ビデオアクション認識のための深層ニューラルネットワークであるegoacoを提案する。 EgoACOの中核となるコンポーネントはクラスアクティベーションプーリング(CAP)であり、双線形プールから細粒度認識、特徴学習から識別的ローカライゼーションへのアイデアを組み合わせられる。 CAPは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。 CAPを通じて、EgoACOはビデオフレーム機能からオブジェクトとシーンコンテキストディスクリプタをデコードすることを学ぶ。 EgoACOの時系列モデリングでは、Long Short-Term Attention(LSTA)と呼ばれるクラスアクティベーションプールの繰り返しバージョンを設計します。 LSTAは、空間的注意と再設計された出力ゲートを内蔵した畳み込みゲートLSTMを拡張します。アクション、オブジェクト、コンテキストディスクリプタは、エゴセントリックビデオデータセット内の名詞-動詞-アクション構造ラベル間の依存性を記述したマルチヘッド予測によって融合されます。 EgoACOは、視覚的な説明を内蔵し、学習と解釈を助けます。 EPIC-KITCHENSとEGTEAという、現在利用可能な2つの大きなエゴセントリックなアクション認識データセットの結果は、アクションコンテキストオブジェクト記述子を明示的にデコードすることで、EgoACOが最先端の認識性能を達成することを示している。

関連論文リスト

EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。 EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-14T12:21:26Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-28T00:27:29Z)
Action Scene Graphs for Long-Form Understanding of Egocentric Videos [23.058999979457546]
Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。 EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。実験とアノテーションを複製するデータセットとコードを公開します。
論文参考訳（メタデータ） (2023-12-06T10:01:43Z)
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文参考訳（メタデータ） (2023-08-15T17:58:11Z)
Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文参考訳（メタデータ） (2023-07-13T02:22:09Z)
Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation [124.07372905781696]
行動原子概念学習(Actical Atomic-Concept Learning, ACL)は、視覚的な観察を行動原子の概念にマッピングしてアライメントを促進する。 AACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立する。
論文参考訳（メタデータ） (2023-02-13T03:08:05Z)
Locally Enhanced Self-Attention: Rethinking Self-Attention as Local and Context Terms [18.857745441710076]
自己認識はコンピュータビジョンモデルで広く使われている。本稿では,局所強化自己意識(LESA)を提案する。 ImageNetとCOCOの結果は、画像認識、オブジェクト検出、インスタンスセグメンテーションのタスクにおいて、畳み込みや自己注意ベースラインよりもLESAの方が優れていることを示している。
論文参考訳（メタデータ） (2021-07-12T18:00:00Z)
Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-07-03T18:00:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。