論文の概要: Referring Atomic Video Action Recognition
- arxiv url: http://arxiv.org/abs/2407.01872v1
- Date: Tue, 2 Jul 2024 01:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 17:13:22.469743
- Title: Referring Atomic Video Action Recognition
- Title(参考訳): 原子ビデオ行動認識の参照
- Authors: Kunyu Peng, Jia Fu, Kailun Yang, Di Wen, Yufan Chen, Ruiping Liu, Junwei Zheng, Jiaming Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen, Alina Roitberg,
- Abstract要約: 我々は、Referring Atomic Video Action Recognitionと呼ばれる新しいタスクを導入する。
我々は、テキストで導かれる特定の個人の正しい原子活動を認識することに集中する。
テキスト記述を手作業で記述した36,630のインスタンスを含むRefAVAデータセットを提示する。
- 参考スコア(独自算出の注目度): 40.85071733730557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new task called Referring Atomic Video Action Recognition (RAVAR), aimed at identifying atomic actions of a particular person based on a textual description and the video data of this person. This task differs from traditional action recognition and localization, where predictions are delivered for all present individuals. In contrast, we focus on recognizing the correct atomic action of a specific individual, guided by text. To explore this task, we present the RefAVA dataset, containing 36,630 instances with manually annotated textual descriptions of the individuals. To establish a strong initial benchmark, we implement and validate baselines from various domains, e.g., atomic action localization, video question answering, and text-video retrieval. Since these existing methods underperform on RAVAR, we introduce RefAtomNet -- a novel cross-stream attention-driven method specialized for the unique challenges of RAVAR: the need to interpret a textual referring expression for the targeted individual, utilize this reference to guide the spatial localization and harvest the prediction of the atomic actions for the referring person. The key ingredients are: (1) a multi-stream architecture that connects video, text, and a new location-semantic stream, and (2) cross-stream agent attention fusion and agent token fusion which amplify the most relevant information across these streams and consistently surpasses standard attention-based fusion on RAVAR. Extensive experiments demonstrate the effectiveness of RefAtomNet and its building blocks for recognizing the action of the described individual. The dataset and code will be made publicly available at https://github.com/KPeng9510/RAVAR.
- Abstract(参考訳): 我々は,その人物のテキスト記述と映像データに基づいて,特定の人物の原子的行動を特定することを目的とした,RAVAR(Referring Atomic Video Action Recognition)というタスクを導入する。
このタスクは、従来の行動認識とローカライゼーションとは異なり、現在のすべての個人に対して予測が配信される。
対照的に、テキストで導かれる特定の個人の正しい原子行動を認識することに焦点をあてる。
このタスクを探索するために、個人を手動で注釈付きで記述した36,630のインスタンスを含むRefAVAデータセットを提示する。
強力な初期ベンチマークを確立するため,アトミックアクションローカライゼーション,ビデオ質問応答,テキストビデオ検索など,さまざまな領域のベースラインを実装し,検証する。
これらの既存手法がRAVARで実行されているため、RAVARの独特な課題に特化して、新たなクロスストリームアテンション駆動方式であるRefAtomNetを導入し、対象個人に対するテキスト参照表現を解釈し、この参照を利用して、空間的局所化を導出し、参照者に対する原子行動の予測を収集する。
主な要素は,(1)ビデオ,テキスト,新しい位置意味ストリームを接続するマルチストリームアーキテクチャ,(2)ストリーム間の最も関連性の高い情報を増幅するクロスストリームエージェントアテンションフュージョンとエージェントトークンフュージョンであり,RAVAR上の標準アテンションベースフュージョンを一貫して上回る。
広範囲にわたる実験は、記述された個人の行動を認識するためのRefAtomNetとそのビルディングブロックの有効性を実証している。
データセットとコードはhttps://github.com/KPeng9510/RAVARで公開される。
関連論文リスト
- Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes [11.575313825919205]
参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。
Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。
本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:54:45Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - AXM-Net: Cross-Modal Context Sharing Attention Network for Person Re-ID [20.700750237972155]
クロスモーダルな人物識別(Re-ID)は、現代のビデオ監視システムにおいて重要である。
主な課題は、人に存在する意味情報に従ってモダリティ間表現を整合させ、背景情報を無視することです。
AXM-Netは、意味的に整列された視覚およびテキスト表現を学習するために設計された新しいCNNベースのアーキテクチャである。
論文 参考訳(メタデータ) (2021-01-19T16:06:39Z) - Retrieving and Highlighting Action with Spatiotemporal Reference [15.283548146322971]
本稿では,ビデオ中のアクションを共同で検索し,時間的にハイライトするフレームワークを提案する。
我々の研究は、アクションハイライトのハイライトという新しいタスクを取り上げ、アンビデオ環境でのアクションの発生場所とタイミングを視覚化する。
論文 参考訳(メタデータ) (2020-05-19T03:12:31Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。