論文の概要: VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
- arxiv url: http://arxiv.org/abs/2603.14659v1
- Date: Sun, 15 Mar 2026 23:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.946414
- Title: VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
- Title(参考訳): VisionCoach:ビジュアル・パーセプション・プロンプティングによるグラウンドド・ビデオ推論の強化
- Authors: Daeun Lee, Shoubin Yu, Yue Zhang, Mohit Bansal,
- Abstract要約: VisonCoach は,(1) ビデオと質問に対して適切なプロンプト型を予測する Visual Prompt Selector と,(2) 視覚的プロンプトガイダンスとオブジェクトグラウンド報酬の下で RL で最適化された Spatio-Reasoner の2つのコンポーネントから構成される。
この結果から,トレーニング中の視覚的プロンプトが映像推論を改善するのに対し,注意散布センスは推論時にプロンプトを必要とせず,この能力を実現することが示唆された。
- 参考スコア(独自算出の注目度): 58.508924874097715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled training data or inference-time perception tools, which increases annotation cost or computational cost. To address this challenge, we propose VisonCoach, an input-adaptive RL framework that improves spatio-temporal grounding through visual prompting as training-time guidance. During RL training, visual prompts are selectively applied to challenging inputs to amplify question-relevant evidence and suppress distractors. The model then internalizes these improvements through self-distillation, enabling grounded reasoning directly on raw videos without visual prompting at inference. VisonCoach consists of two components: (1) Visual Prompt Selector, which predicts appropriate prompt types conditioned on the video and question, and (2) Spatio-Temporal Reasoner, optimized with RL under visual prompt guidance and object-aware grounding rewards that enforce object identity consistency and multi-region bounding-box overlap. Extensive experiments demonstrate that VisonCoach achieves state-of-the-art performance under comparable settings, across diverse video reasoning, video understanding, and temporal grounding benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, and Charades-STA), while maintaining a single efficient inference pathway without external tools. Our results show that visual prompting during training improves grounded video reasoning, while self-distillation enables the model to internalize this ability without requiring prompts at inference time.
- Abstract(参考訳): ビデオ推論は、フレーム全体にわたる疑問関連エビデンスを見つけ、追跡するモデルを必要とする。
検証可能な報酬を持つ強化学習(RL)は精度を向上するが、推論過程において信頼できる時空間グラウンドを達成するのに苦慮している。
さらに、グラウンディングの改善は、通常、スケールしたトレーニングデータや推論時間認識ツールに依存し、アノテーションコストや計算コストを増大させる。
この課題に対処するため,視覚的プロンプトによる時空間接地を改善する入力適応型RLフレームワークであるVisonCoachを提案する。
RLトレーニング中、視覚的プロンプトは、質問関連エビデンスを増幅し、邪魔者を抑えるために、挑戦的な入力に選択的に適用される。
モデルは、自己蒸留によりこれらの改善を内部化し、推論時に視覚的にプロンプトすることなく、生のビデオを直接根拠とした推論を可能にする。
VisonCoach は,(1) ビデオと質問に対して適切なプロンプト型を予測する Visual Prompt Selector と (2) 視覚的プロンプトガイダンスの下で RL に最適化された Spatio-Temporal Reasoner と,オブジェクトのアイデンティティの整合性とマルチリージョン境界ボックスのオーバーラップを強制するオブジェクト認識グラウンドグラウンドの報酬である。
VisonCoachは、さまざまなビデオ推論、ビデオ理解、時間的グラウンドベンチマーク(V-STAR、VideoMME、World-Sense、VideoMMMU、PerceptionTest、Charades-STA)を通じて、同等の設定で最先端のパフォーマンスを実現し、外部ツールを使わずに単一の効率的な推論パスを維持している。
以上の結果から,トレーニング中の視覚的プロンプトにより映像推論が改善し,自己蒸留により推論時にプロンプトを必要とせず内部化することが可能であることが示唆された。
関連論文リスト
- Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。