論文の概要: Symbiotic Attention with Privileged Information for Egocentric Action
Recognition
- arxiv url: http://arxiv.org/abs/2002.03137v1
- Date: Sat, 8 Feb 2020 10:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:56:12.534078
- Title: Symbiotic Attention with Privileged Information for Egocentric Action
Recognition
- Title(参考訳): 自己中心的行動認識のための特権情報付き共生的注意
- Authors: Xiaohan Wang, Yu Wu, Linchao Zhu, Yi Yang
- Abstract要約: 我々は,エゴセントリックなビデオ認識のための新しい共生アテンションフレームワークを提案する。
本フレームワークは,動詞の分岐,名詞の分岐,特権情報間の相互通信を可能にする。
特に、大規模なエゴセントリックな2つのビデオデータセットの最先端を実現している。
- 参考スコア(独自算出の注目度): 71.0778513390334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric video recognition is a natural testbed for diverse interaction
reasoning. Due to the large action vocabulary in egocentric video datasets,
recent studies usually utilize a two-branch structure for action recognition,
ie, one branch for verb classification and the other branch for noun
classification. However, correlation studies between the verb and the noun
branches have been largely ignored. Besides, the two branches fail to exploit
local features due to the absence of a position-aware attention mechanism. In
this paper, we propose a novel Symbiotic Attention framework leveraging
Privileged information (SAP) for egocentric video recognition. Finer
position-aware object detection features can facilitate the understanding of
actor's interaction with the object. We introduce these features in action
recognition and regard them as privileged information. Our framework enables
mutual communication among the verb branch, the noun branch, and the privileged
information. This communication process not only injects local details into
global features but also exploits implicit guidance about the spatio-temporal
position of an on-going action. We introduce novel symbiotic attention (SA) to
enable effective communication. It first normalizes the detection guided
features on one branch to underline the action-relevant information from the
other branch. SA adaptively enhances the interactions among the three sources.
To further catalyze this communication, spatial relations are uncovered for the
selection of most action-relevant information. It identifies the most valuable
and discriminative feature for classification. We validate the effectiveness of
our SAP quantitatively and qualitatively. Notably, it achieves the
state-of-the-art on two large-scale egocentric video datasets.
- Abstract(参考訳): エゴセントリックなビデオ認識は、多様な相互作用推論のための自然なテストベッドである。
エゴセントリックなビデオデータセットにおける大きなアクション語彙のため、近年の研究では、アクション認識には2枝構造、動詞分類には1枝、名詞分類には2枝構造を用いる。
しかし、動詞と名詞の分枝の相関研究はほとんど無視されている。
さらに2つのブランチは、位置認識の注意機構がないため、ローカル機能を利用することができない。
本稿では,エゴセントリックなビデオ認識にプリビジェンド情報(SAP)を活用する新しい共生意識フレームワークを提案する。
位置認識型オブジェクト検出機能により、アクターとオブジェクトとのインタラクションの理解が容易になる。
我々はこれらの特徴を行動認識に導入し、特権情報とみなす。
本フレームワークは,動詞の分岐,名詞の分岐,特権情報間の相互通信を可能にする。
このコミュニケーションプロセスは、局所的な詳細をグローバル機能に注入するだけでなく、進行中のアクションの時空間的位置に関する暗黙のガイダンスを利用する。
効果的なコミュニケーションを実現するために,新たな共生的注意(SA)を導入する。
まず、あるブランチ上の検出ガイド機能を正規化し、他のブランチからのアクション関連情報を下線化する。
SAは3つのソース間の相互作用を適応的に増強する。
このコミュニケーションをさらに触媒するために、ほとんどの行動関連情報を選択するための空間関係が明らかにされる。
分類において最も価値があり差別的な特徴である。
SAPの有効性を定量的かつ質的に検証する。
注目すべきは,2つの大規模エゴセントリックビデオデータセットの最先端を実現することだ。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - How to Understand Named Entities: Using Common Sense for News Captioning [34.10048889674029]
ニュースキャプションは、記事本体を入力としてイメージを記述することを目的としている。
本稿では,ニュースキャプションのための名前付きエンティティを理解するために,コモンセンス知識を活用する。
論文 参考訳(メタデータ) (2024-03-11T08:52:52Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Interpretation of Emergent Communication in Heterogeneous Collaborative
Embodied Agents [83.52684405389445]
本稿では,コラボレーティブな多目的ナビゲーションタスクCoMONを紹介する。
この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。
視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。
創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。
論文 参考訳(メタデータ) (2021-10-12T06:56:11Z) - Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries [51.48859591280838]
ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。
フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。
Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
論文 参考訳(メタデータ) (2021-02-16T10:26:04Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - Co-GAT: A Co-Interactive Graph Attention Network for Joint Dialog Act
Recognition and Sentiment Classification [34.711179589196355]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
2つのタスクを共同で実行するためのCo-GAT(Co-Interactive Graph Attention Network)を提案する。
2つの公開データセットの実験結果から,我々のモデルは2つの情報源をうまく捉えていることがわかった。
論文 参考訳(メタデータ) (2020-12-24T14:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。