論文の概要: Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries
- arxiv url: http://arxiv.org/abs/2102.08065v1
- Date: Tue, 16 Feb 2021 10:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:04:05.992599
- Title: Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries
- Title(参考訳): 注意ディクショナリ付きエゴセントリックビデオにおける物体の動作認識の学習
- Authors: Swathikiran Sudhakaran and Sergio Escalera and Oswald Lanz
- Abstract要約: ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。
フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。
Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
- 参考スコア(独自算出の注目度): 51.48859591280838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EgoACO, a deep neural architecture for video action recognition
that learns to pool action-context-object descriptors from frame level features
by leveraging the verb-noun structure of action labels in egocentric video
datasets. The core component of EgoACO is class activation pooling (CAP), a
differentiable pooling operation that combines ideas from bilinear pooling for
fine-grained recognition and from feature learning for discriminative
localization. CAP uses self-attention with a dictionary of learnable weights to
pool from the most relevant feature regions. Through CAP, EgoACO learns to
decode object and scene context descriptors from video frame features. For
temporal modeling in EgoACO, we design a recurrent version of class activation
pooling termed Long Short-Term Attention (LSTA). LSTA extends convolutional
gated LSTM with built-in spatial attention and a re-designed output gate.
Action, object and context descriptors are fused by a multi-head prediction
that accounts for the inter-dependencies between noun-verb-action structured
labels in egocentric video datasets. EgoACO features built-in visual
explanations, helping learning and interpretation. Results on the two largest
egocentric action recognition datasets currently available, EPIC-KITCHENS and
EGTEA, show that by explicitly decoding action-context-object descriptors,
EgoACO achieves state-of-the-art recognition performance.
- Abstract(参考訳): 本稿では,アクションラベルの動詞-名詞構造を利用して,フレームレベルの特徴からアクション-コンテキスト-オブジェクト記述子をプールすることを学ぶ,ビデオアクション認識のための深層ニューラルネットワークであるegoacoを提案する。
EgoACOの中核となるコンポーネントはクラスアクティベーションプーリング(CAP)であり、双線形プールから細粒度認識、特徴学習から識別的ローカライゼーションへのアイデアを組み合わせられる。
CAPは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
CAPを通じて、EgoACOはビデオフレーム機能からオブジェクトとシーンコンテキストディスクリプタをデコードすることを学ぶ。
EgoACOの時系列モデリングでは、Long Short-Term Attention(LSTA)と呼ばれるクラスアクティベーションプールの繰り返しバージョンを設計します。
LSTAは、空間的注意と再設計された出力ゲートを内蔵した畳み込みゲートLSTMを拡張します。
アクション、オブジェクト、コンテキストディスクリプタは、エゴセントリックビデオデータセット内の名詞-動詞-アクション構造ラベル間の依存性を記述したマルチヘッド予測によって融合されます。
EgoACOは、視覚的な説明を内蔵し、学習と解釈を助けます。
EPIC-KITCHENSとEGTEAという、現在利用可能な2つの大きなエゴセントリックなアクション認識データセットの結果は、アクションコンテキストオブジェクト記述子を明示的にデコードすることで、EgoACOが最先端の認識性能を達成することを示している。
関連論文リスト
- Actional Atomic-Concept Learning for Demystifying Vision-Language
Navigation [159.80758203501304]
行動原子概念学習(Actical Atomic-Concept Learning, ACL)は、視覚的な観察を行動原子の概念にマッピングしてアライメントを促進する。
AACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立する。
論文 参考訳(メタデータ) (2023-02-13T03:08:05Z) - Disentangled Action Recognition with Knowledge Bases [77.77482846456478]
本研究では,新規な動詞や新規な名詞に対する合成行動認識モデルの一般化能力の向上を目指す。
従来の作業では、知識グラフ内の動詞-名詞合成アクションノードを使用しており、スケールを非効率にしている。
本提案手法は, 行動の固有な構成性を活用する, 知識ベースを用いた不整合行動認識(DARK)である。
論文 参考訳(メタデータ) (2022-07-04T20:19:13Z) - Learning What and Where -- Unsupervised Disentangling Location and
Identity Tracking [0.44040106718326594]
教師なしLOCation and Identity Tracking System(Loci)を導入する。
ローチは脳の背腹側経路にインスパイアされ、自己監督された分離機構を用いて、何とどこにも結合する問題に取り組む。
Lociは、より深い説明指向のビデオ処理のステージを設定できる。
論文 参考訳(メタデータ) (2022-05-26T13:30:14Z) - Attention in Attention: Modeling Context Correlation for Efficient Video
Classification [47.938500236792244]
本稿では,注目度向上のためのAIA手法を提案する。
ビデオ特徴コンテキストを,グローバル平均およびプール操作を伴う特定の軸に沿って集約されたダイナミックスとしてインスタンス化する。
注意ユニット内の全ての計算処理は、プール化された次元に作用し、計算コストの増大は極めて少ない。
論文 参考訳(メタデータ) (2022-04-20T08:37:52Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - Locally Enhanced Self-Attention: Rethinking Self-Attention as Local and
Context Terms [18.857745441710076]
自己認識はコンピュータビジョンモデルで広く使われている。
本稿では,局所強化自己意識(LESA)を提案する。
ImageNetとCOCOの結果は、画像認識、オブジェクト検出、インスタンスセグメンテーションのタスクにおいて、畳み込みや自己注意ベースラインよりもLESAの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:00:00Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。