論文の概要: VideoGEM: Training-free Action Grounding in Videos
- arxiv url: http://arxiv.org/abs/2503.20348v1
- Date: Wed, 26 Mar 2025 09:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:31.562539
- Title: VideoGEM: Training-free Action Grounding in Videos
- Title(参考訳): VideoGEM:ビデオのトレーニング不要アクショングラウンド
- Authors: Felix Vogel, Walid Bousselham, Anna Kukleva, Nina Shvetsova, Hilde Kuehne,
- Abstract要約: 我々は,事前訓練された画像とビデオ言語によるバックボーンに基づく,最初のトレーニング不要な空間行動グラウンドディング手法であるVideoGEMを提案する。
アクションのような高レベルなセマンティック概念は、通常、画像およびビデオ言語モデルの上位層に現れる。
本稿では, プロンプト分解, 処理動作, 動詞, オブジェクトプロンプトを別々に導入し, アクションの空間的局所化を向上する。
- 参考スコア(独自算出の注目度): 20.477666113083682
- License:
- Abstract: Vision-language foundation models have shown impressive capabilities across various zero-shot tasks, including training-free localization and grounding, primarily focusing on localizing objects in images. However, leveraging those capabilities to localize actions and events in videos is challenging, as actions have less physical outline and are usually described by higher-level concepts. In this work, we propose VideoGEM, the first training-free spatial action grounding method based on pretrained image- and video-language backbones. Namely, we adapt the self-self attention formulation of GEM to spatial activity grounding. We observe that high-level semantic concepts, such as actions, usually emerge in the higher layers of the image- and video-language models. We, therefore, propose a layer weighting in the self-attention path to prioritize higher layers. Additionally, we introduce a dynamic weighting method to automatically tune layer weights to capture each layer`s relevance to a specific prompt. Finally, we introduce a prompt decomposition, processing action, verb, and object prompts separately, resulting in a better spatial localization of actions. We evaluate the proposed approach on three image- and video-language backbones, CLIP, OpenCLIP, and ViCLIP, and on four video grounding datasets, V-HICO, DALY, YouCook-Interactions, and GroundingYouTube, showing that the proposed training-free approach is able to outperform current trained state-of-the-art approaches for spatial video grounding.
- Abstract(参考訳): ビジョン言語基礎モデルは、トレーニングなしのローカライゼーションやグラウンド化など、さまざまなゼロショットタスクにおいて、主にイメージ内のオブジェクトのローカライズに重点を置いている、印象的な機能を示している。
しかしながら、アクションやイベントをビデオにローカライズするためにこれらの機能を活用することは難しい。
本研究では,事前訓練された画像とビデオ言語によるバックボーンに基づく,最初のトレーニング不要な空間行動グラウンドディング手法であるVideoGEMを提案する。
すなわち,GEMの自己注意の定式化を空間的活動基盤化に適用する。
アクションのような高レベルなセマンティック概念は、通常、画像およびビデオ言語モデルの上位層に現れる。
そこで我々は,より高い層を優先する自己注意経路の重み付けを提案する。
さらに,動的重み付け手法を導入し,各層が特定のプロンプトに関連性を持っていることを検知するために,各層重み付けを自動的に調整する。
最後に、プロンプト分解、処理アクション、動詞、オブジェクトプロンプトを別々に導入し、アクションの空間的局所化を改善する。
提案手法は,V-HICO,DALY,YouCook-Interactions,GroundingYouTubeの4つのビデオグラウンドリングデータセットと,CLIP,OpenCLIP,ViCLIPの3つの画像およびビデオ言語バックボーンに対するアプローチを評価した結果,提案手法は,空間ビデオグラウンドニングにおいて,現在訓練済みの最先端のアプローチよりも優れていることがわかった。
関連論文リスト
- ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding [40.60371529725805]
本稿では,機能適応のためのドメイン内ファインチューニングのパラダイムを提案する。
本稿では, VLMのイメージエンコーダにアクションキューを注入し, アクションに敏感なパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - Language-based Action Concept Spaces Improve Video Self-Supervised
Learning [8.746806973828738]
画像CLIPモデルをビデオ領域に適応させるために,言語に結びついた自己教師型学習を導入する。
時間的モデリングのために修正されたバックボーンは、アクション概念空間で運用される列車の目的と自己蒸留設定の下で訓練される。
提案手法は3つの行動認識ベンチマークにおいてゼロショットおよび線形探索性能を向上させる。
論文 参考訳(メタデータ) (2023-07-20T14:47:50Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。