論文の概要: Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.21375v1
- Date: Wed, 26 Nov 2025 13:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.109204
- Title: Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning
- Title(参考訳): 境界ボックスで考える:強化ファインチューニングによる時空間ビデオグラウンドの強化
- Authors: Xin Gu, Haoji Zhang, Qihang Fan, Jingxuan Niu, Zhipeng Zhang, Libo Zhang, Guang Chen, Fan Chen, Longyin Wen, Sijie Zhu,
- Abstract要約: マルチモーダル大言語モデル(LM)は、トレーニング目的のミスアライメントと、標準のビジュアルエンコーダにおける微粒な微粒化アライメントの弱さにより、STVGでは性能が劣る。
本稿では,STVG-o1を提案する。STVG-o1は,市販のMLLMがアーキテクチャ変更なしにリアルタイムのSTVG性能を実現するための最初のフレームワークである。
- 参考スコア(独自算出の注目度): 41.30900315121155
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatio-temporal video grounding (STVG) requires localizing a target object in untrimmed videos both temporally and spatially from natural language descriptions. Despite their strong language understanding, multimodal large language models (MLLMs) underperform on STVG due to misaligned training objectives and weak fine-grained region-word alignment in standard visual encoders. To address this, we propose STVG-o1, the first framework that enables off-the-shelf MLLMs to achieve state-of-the-art STVG performance without any architectural modifications. Our method introduces a bounding-box chain-of-thought mechanism that explicitly reasons about spatio-temporal locations in an intermediate step before producing the final prediction. We further design a multi-dimensional reinforcement reward function consisting of format, consistency, temporal, spatial, and think rewards, which provides geometry-aware supervision through reinforcement fine-tuning. Evaluated on HCSTVG-v1/v2 and VidSTG, STVG-o1 sets new state-of-the-art results on HCSTVG, outperforming the best task-specific method by 7.3\% m\_tIoU on HCSTVG-v1, matching specialized models on VidSTG, and surpassing all existing MLLM-based approaches by large margins. It also demonstrates strong open-vocabulary generalization across datasets, establishing MLLMs as viable and powerful backbones for precise spatio-temporal grounding. Our code and models will be released.
- Abstract(参考訳): 時空間ビデオグラウンドティング(STVG)では、自然言語記述から時間的にも空間的にも対象物の位置を特定する必要がある。
言語理解が強かったにもかかわらず、マルチモーダル大言語モデル(MLLM)は、トレーニング目標のミスアライメントや、標準ビジュアルエンコーダにおける領域単語アライメントの弱さにより、STVG上では性能が劣っている。
そこで我々は,STVG-o1を提案する。STVG-o1は,市販のMLLMがアーキテクチャ変更なしに最先端のSTVG性能を実現するための最初のフレームワークである。
提案手法では,最終予測を生成する前の中間段階における時空間位置を明示的に推論するバウンディングボックス・チェーン・オブ・シント機構を導入する。
さらに, 形状, 整合性, 時間的, 空間的, 思考報酬からなる多次元強化報酬関数を設計し, 補強微調整による幾何学的監視を実現する。
HCSTVG-v1/v2 と VidSTG で評価され、STVG-o1 は HCSTVG で新しい最先端結果を設定し、HCSTVG-v1 で7.3\% m\_tIoU を上回り、VidSTG で特別なモデルをマッチングし、既存の MLLM ベースのアプローチを大きなマージンで上回ります。
また、データセット全体にわたる強力なオープン語彙の一般化を実証し、MLLMを正確な時空間接地のための有効かつ強力なバックボーンとして確立する。
コードとモデルはリリースされます。
関連論文リスト
- Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding [47.400649582392255]
大規模言語モデル(MLLM)を用いて,STVGのゼロショットソリューションを探索する。
STVGのためのMLLMベースのゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:35:50Z) - MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding [13.025856914576673]
Video Temporal Groundingは、自然言語クエリに対応するビデオクリップをローカライズすることを目的としている。
既存のTransformerベースの手法は、しばしば冗長な注意と準最適マルチモーダルアライメントに悩まされる。
MLVTGは,MambaAligner と LLMRefiner の2つの重要なモジュールを統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-06-10T07:20:12Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-01-17T01:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。