Fugu-MT 論文翻訳(概要): Referring Atomic Video Action Recognition

論文の概要: Referring Atomic Video Action Recognition

arxiv url: http://arxiv.org/abs/2407.01872v1
Date: Tue, 2 Jul 2024 01:13:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 17:13:22.469743
Title: Referring Atomic Video Action Recognition
Title（参考訳）: 原子ビデオ行動認識の参照
Authors: Kunyu Peng, Jia Fu, Kailun Yang, Di Wen, Yufan Chen, Ruiping Liu, Junwei Zheng, Jiaming Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen, Alina Roitberg,
Abstract要約: 我々は、Referring Atomic Video Action Recognitionと呼ばれる新しいタスクを導入する。我々は、テキストで導かれる特定の個人の正しい原子活動を認識することに集中する。テキスト記述を手作業で記述した36,630のインスタンスを含むRefAVAデータセットを提示する。
参考スコア（独自算出の注目度）: 40.85071733730557
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a new task called Referring Atomic Video Action Recognition (RAVAR), aimed at identifying atomic actions of a particular person based on a textual description and the video data of this person. This task differs from traditional action recognition and localization, where predictions are delivered for all present individuals. In contrast, we focus on recognizing the correct atomic action of a specific individual, guided by text. To explore this task, we present the RefAVA dataset, containing 36,630 instances with manually annotated textual descriptions of the individuals. To establish a strong initial benchmark, we implement and validate baselines from various domains, e.g., atomic action localization, video question answering, and text-video retrieval. Since these existing methods underperform on RAVAR, we introduce RefAtomNet -- a novel cross-stream attention-driven method specialized for the unique challenges of RAVAR: the need to interpret a textual referring expression for the targeted individual, utilize this reference to guide the spatial localization and harvest the prediction of the atomic actions for the referring person. The key ingredients are: (1) a multi-stream architecture that connects video, text, and a new location-semantic stream, and (2) cross-stream agent attention fusion and agent token fusion which amplify the most relevant information across these streams and consistently surpasses standard attention-based fusion on RAVAR. Extensive experiments demonstrate the effectiveness of RefAtomNet and its building blocks for recognizing the action of the described individual. The dataset and code will be made publicly available at https://github.com/KPeng9510/RAVAR.
Abstract（参考訳）: 我々は,その人物のテキスト記述と映像データに基づいて,特定の人物の原子的行動を特定することを目的とした,RAVAR(Referring Atomic Video Action Recognition)というタスクを導入する。このタスクは、従来の行動認識とローカライゼーションとは異なり、現在のすべての個人に対して予測が配信される。対照的に、テキストで導かれる特定の個人の正しい原子行動を認識することに焦点をあてる。このタスクを探索するために、個人を手動で注釈付きで記述した36,630のインスタンスを含むRefAVAデータセットを提示する。強力な初期ベンチマークを確立するため,アトミックアクションローカライゼーション,ビデオ質問応答,テキストビデオ検索など,さまざまな領域のベースラインを実装し,検証する。これらの既存手法がRAVARで実行されているため、RAVARの独特な課題に特化して、新たなクロスストリームアテンション駆動方式であるRefAtomNetを導入し、対象個人に対するテキスト参照表現を解釈し、この参照を利用して、空間的局所化を導出し、参照者に対する原子行動の予測を収集する。主な要素は,(1)ビデオ,テキスト,新しい位置意味ストリームを接続するマルチストリームアーキテクチャ,(2)ストリーム間の最も関連性の高い情報を増幅するクロスストリームエージェントアテンションフュージョンとエージェントトークンフュージョンであり,RAVAR上の標準アテンションベースフュージョンを一貫して上回る。広範囲にわたる実験は、記述された個人の行動を認識するためのRefAtomNetとそのビルディングブロックの有効性を実証している。データセットとコードはhttps://github.com/KPeng9510/RAVARで公開される。

関連論文リスト

Beyond Label Semantics: Language-Guided Action Anatomy for Few-shot Action Recognition [16.07037171149096]
Few-shot Action Recognition (FSAR)は、ビデオ内の人間のアクションを分類することを目的としており、カテゴリごとにラベル付けされた少数のサンプルのみである。ラベルセマンティクスを超えた新しいフレームワークであるLGA(Language-Guided Action Anatomy)を提案する。テキストでは、既製のLCMにラベルをアトミックな動作記述のシーケンスに解剖するよう促す。ビデオの場合、Visual Anatomy Moduleはアクションをアトミックビデオフェーズにセグメントし、アクションのシーケンシャルな構造をキャプチャする。
論文参考訳（メタデータ） (2025-07-22T07:16:25Z)
Beyond Object Categories: Multi-Attribute Reference Understanding for Visual Grounding [10.04904999444546]
Referring Expression comprehensionは、自然言語記述に基づくオブジェクトのローカライゼーションを実現することを目的としている。既存のRECアプローチは、オブジェクトカテゴリ記述と単一属性の意図記述によって制約される。我々は、状態記述、導出意図、およびターゲット対象物を特定するための具体的ジェスチャーを統合する新しいフレームワークであるMulti-ref ECを提案する。
論文参考訳（メタデータ） (2025-03-25T00:59:58Z)
Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。本手法は3つのベンチマークでSOTA法より優れている。
論文参考訳（メタデータ） (2024-10-02T13:30:32Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling [8.463489896549161]
2段階ビデオローカライゼーション(英語: Two-stage Video Localization, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的なタスクである。 JARViS(Joint Actor-scene context Relation Modeling)と呼ばれる2段階のVADフレームワークを提案する。 JARViSは、トランスフォーマーアテンションを用いて、空間的および時間的次元にわたって世界中に分布するクロスモーダルアクションセマンティクスを集約する。
論文参考訳（メタデータ） (2024-08-07T08:08:08Z)
Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。 OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文参考訳（メタデータ） (2024-05-17T14:52:47Z)
Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文参考訳（メタデータ） (2023-12-19T18:59:53Z)
Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文参考訳（メタデータ） (2023-07-13T02:22:09Z)
What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文参考訳（メタデータ） (2023-03-29T19:38:23Z)
Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文参考訳（メタデータ） (2023-03-06T18:50:06Z)
AXM-Net: Cross-Modal Context Sharing Attention Network for Person Re-ID [20.700750237972155]
クロスモーダルな人物識別(Re-ID)は、現代のビデオ監視システムにおいて重要である。主な課題は、人に存在する意味情報に従ってモダリティ間表現を整合させ、背景情報を無視することです。 AXM-Netは、意味的に整列された視覚およびテキスト表現を学習するために設計された新しいCNNベースのアーキテクチャである。
論文参考訳（メタデータ） (2021-01-19T16:06:39Z)
Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文参考訳（メタデータ） (2020-04-16T08:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。