論文の概要: Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2602.18702v1
- Date: Sat, 21 Feb 2026 03:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.249904
- Title: Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding
- Title(参考訳): グラウンドで考える:長いビデオ理解のためのビデオグラウンドによるカリキュラム強化推論
- Authors: Houlun Chen, Xin Wang, Guangyao Li, Yuwei Zhou, Yihan Chen, Jia Jia, Wenwu Zhu,
- Abstract要約: Video-TwGは、新しいThink-with-Groundingパラダイムを採用したカリキュラム強化フレームワークである。
Video-TwGは、複雑な補助モジュールや注釈付き推論トレースに頼ることなく、簡単にエンドツーエンドでトレーニングすることができる。
提案アルゴリズムは, 微粒な接地報酬, 自己確認擬似報酬, 精度保証機構を特徴とする。
- 参考スコア(独自算出の注目度): 38.87967229483403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long video understanding is challenging due to rich and complicated multimodal clues in long temporal range.Current methods adopt reasoning to improve the model's ability to analyze complex video clues in long videos via text-form reasoning.However,the existing literature suffers from the fact that the text-only reasoning under fixed video context may exacerbate hallucinations since detailed crucial clues are often ignored under limited video context length due to the temporal redundancy of long videos.To address this gap,we propose Video-TwG,a curriculum reinforced framework that employs a novel Think-with-Grounding paradigm,enabling video LLMs to actively decide when to perform on-demand grounding during interleaved text-video reasoning, selectively zooming into question-relevant clips only when necessary.Video-TwG can be trained end-to-end in a straightforward manner, without relying on complex auxiliary modules or heavily annotated reasoning tracesIn detail,we design a Two-stage Reinforced Curriculum Strategy, where the model first learns think-with-grounding behavior on a small short-video GQA dataset with grounding labels,and then scales to diverse general QA data with videos of diverse domains to encourage generalization. Further, to handle complex think-with-grounding reasoning for various kinds of data,we propose TwG-GRPO algorithm which features the fine-grained grounding reward, self-confirmed pseudo reward and accuracy-gated mechanism.Finally,we propose to construct a new TwG-51K dataset that facilitates training. Experiments on Video-MME, LongVideoBench, and MLVU show that Video-TwG consistently outperforms strong LVU baselines.Further ablation validates the necessity of our Two-stage Reinforced Curriculum Strategy and shows our TwG-GRPO better leverages diverse unlabeled data to improve grounding quality and reduce redundant groundings without sacrificing QA performance.
- Abstract(参考訳): 長い時間的範囲において、リッチで複雑なマルチモーダルな手がかりによって、長いビデオ理解は困難である。現在、テキスト形式の推論によって、複雑なビデオの手がかりを分析する能力を改善するための推論を採用する。しかし、固定されたビデオコンテキスト下でのテキストのみの推論は、長いビデオの時間的冗長性によって、詳細な重要な手がかりが制限されたビデオコンテキストで無視されるため、幻覚を悪化させる可能性がある。このギャップに対処するために、我々は、新しいシンク・ウィズ・グラウンド・パラダイムを用いた統合強化フレームワークであるVideo-TwGを提案する。
さらに, 様々なデータに対する複雑な思考・接地推論を扱うために, 微粒な接地報酬, 自己確認擬似報酬, 精度向上機構を特徴とするTwG-GRPOアルゴリズムを提案し, トレーニングを容易にする新しいTwG-51Kデータセットの構築を提案する。
Video-MME, LongVideoBench, MLVUの実験では, Video-TwGは強いLVUベースラインを一貫して上回り, いずれのアブレーションも2段階強化カリキュラム戦略の必要性を検証し, 地上品質の向上とQA性能の犠牲を伴わない冗長なグラウンド化の削減を図っている。
関連論文リスト
- Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。