論文の概要: Identity-aware Graph Memory Network for Action Detection
- arxiv url: http://arxiv.org/abs/2108.11559v1
- Date: Thu, 26 Aug 2021 02:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:03:45.203984
- Title: Identity-aware Graph Memory Network for Action Detection
- Title(参考訳): 行動検出のためのアイデンティティ対応グラフメモリネットワーク
- Authors: Jingcheng Ni, Jie Qin, Di Huang
- Abstract要約: グラフメモリネットワークを通じて,アクターの身元情報を長期的・短期的両方の文脈で明確に強調する。
具体的には,長期関係モデリングを包括的に行う階層型グラフニューラルネットワーク(IGNN)を提案する。
我々は、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発した。
- 参考スコア(独自算出の注目度): 37.65846189707054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action detection plays an important role in high-level video understanding
and media interpretation. Many existing studies fulfill this spatio-temporal
localization by modeling the context, capturing the relationship of actors,
objects, and scenes conveyed in the video. However, they often universally
treat all the actors without considering the consistency and distinctness
between individuals, leaving much room for improvement. In this paper, we
explicitly highlight the identity information of the actors in terms of both
long-term and short-term context through a graph memory network, namely
identity-aware graph memory network (IGMN). Specifically, we propose the
hierarchical graph neural network (HGNN) to comprehensively conduct long-term
relation modeling within the same identity as well as between different ones.
Regarding short-term context, we develop a dual attention module (DAM) to
generate identity-aware constraint to reduce the influence of interference by
the actors of different identities. Extensive experiments on the challenging
AVA dataset demonstrate the effectiveness of our method, which achieves
state-of-the-art results on AVA v2.1 and v2.2.
- Abstract(参考訳): アクション検出は、高レベルのビデオ理解とメディア解釈において重要な役割を果たす。
既存の多くの研究は、この時空間的ローカライゼーションを文脈をモデル化し、ビデオで伝えられるアクター、オブジェクト、シーンの関係を捉えている。
しかし、彼らは個人間の一貫性と区別を考慮せずに全ての俳優を普遍的に扱うことが多く、改善の余地がたくさんある。
本稿では,グラフメモリネットワークであるidentity-aware graph memory network (igmn) を通じて,長期的および短期的コンテキストにおけるアクターのアイデンティティ情報を明確に強調する。
具体的には,階層型グラフニューラルネットワーク(HGNN)を提案する。
短期的文脈においては、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発する。
AVAデータセットの大規模な実験により,AVA v2.1 と v2.2 の最先端結果が得られた。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。