論文の概要: Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2509.15178v1
- Date: Thu, 18 Sep 2025 17:35:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.365761
- Title: Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
- Title(参考訳): ゼロショット時空間ビデオグラウンドにおけるマルチモーダルLDMの可能性
- Authors: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau,
- Abstract要約: 大規模言語モデル(MLLM)を用いて,STVGのゼロショットソリューションを探索する。
STVGのためのMLLMベースのゼロショットフレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.400649582392255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal tube of a video, as specified by the input text query. In this paper, we utilize multimodal large language models (MLLMs) to explore a zero-shot solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to dynamically assign special tokens, referred to as \textit{grounding tokens}, for grounding the text query; and (2) MLLMs often suffer from suboptimal grounding due to the inability to fully integrate the cues in the text query (\textit{e.g.}, attributes, actions) for inference. Based on these insights, we propose a MLLM-based zero-shot framework for STVG, which includes novel decomposed spatio-temporal highlighting (DSTH) and temporal-augmented assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH strategy first decouples the original query into attribute and action sub-queries for inquiring the existence of the target both spatially and temporally. It then uses a novel logit-guided re-attention (LRA) module to learn latent variables as spatial and temporal prompts, by regularizing token predictions for each sub-query. These prompts highlight attribute and action cues, respectively, directing the model's attention to reliable spatial and temporal related visual regions. In addition, as the spatial grounding by the attribute sub-query should be temporally consistent, we introduce the TAS strategy to assemble the predictions using the original video frames and the temporal-augmented frames as inputs to help improve temporal consistency. We evaluate our method on various MLLMs, and show that it outperforms SOTA methods on three common STVG benchmarks. The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.
- Abstract(参考訳): STVG(Spatio-temporal video grounding)は、入力されたテキストクエリによって指定されたビデオの時空間管をローカライズすることを目的としている。
本稿では,マルチモーダル大言語モデル(MLLM)を用いて,STVGにおけるゼロショット解の探索を行う。
MLLMはテキストクエリをグラウンド化するために \textit{grounding tokens} と呼ばれる特別なトークンを動的に割り当てる傾向がある。
これらの知見に基づいて,STVG のための MLLM ベースのゼロショットフレームワークを提案する。これは,新しい分解時空間強調(DSTH)と,MLLM の推論能力を解き放つための時間拡張組立(TAS)戦略を含む。
DSTH戦略は、まず元のクエリを属性とアクションサブクエリに分解し、ターゲットの存在を空間的および時間的に問う。
次に、新しいlogit-guided re-attention (LRA)モジュールを使用して、各サブクエリのトークン予測を正規化することにより、潜伏変数を空間的および時間的プロンプトとして学習する。
これらのプロンプトは、それぞれ属性とアクションキューを強調し、モデルの注意を信頼できる空間的および時間的関連視覚領域に向ける。
さらに,属性サブクエリによる空間的接地は時間的に一貫したものであるべきであり,時間的整合性を改善するための入力として,元のビデオフレームと時間的拡張フレームを用いて予測を組み立てるためのTAS戦略を導入する。
本手法を各種MLLM上で評価し,STVGベンチマークでSOTA法より優れていることを示す。
コードはhttps://github.com/zaiquanyang/LLaVA_Next_STVGで入手できる。
関連論文リスト
- A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - How Can Large Language Models Understand Spatial-Temporal Data? [12.968952073740796]
本稿では,時空間予測に大規模言語モデルを活用する革新的なアプローチSTG-LLMを紹介する。
1 STG-Tokenizer: この空間時間グラフトークンは、複雑なグラフデータを、空間的および時間的関係の両方を捉える簡潔なトークンに変換する; 2) STG-Adapter: 線形符号化層と復号層からなるこの最小限のアダプタは、トークン化されたデータとLCMの理解のギャップを埋める。
論文 参考訳(メタデータ) (2024-01-25T14:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。