論文の概要: VISD: Enhancing Video Reasoning via Structured Self-Distillation
- arxiv url: http://arxiv.org/abs/2605.06094v2
- Date: Fri, 08 May 2026 12:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:23.119509
- Title: VISD: Enhancing Video Reasoning via Structured Self-Distillation
- Title(参考訳): VISD: 構造的自己蒸留によるビデオ推論の強化
- Authors: Hao Lin, Kunyang Lv, Xu Jiang, Jingqi Tian, Zhongjing Du, Jiayu Ding, Qiaoman Zhang, Hongbo Jin,
- Abstract要約: 複雑な推論のためのビデオLLMの訓練は、レベルレベルの報酬の順序と、長期的、時間的基盤の推論軌道上のきめ細かいクレジット割り当ての欠如により、依然として困難である。
ビデオ推論のための診断に意味のある特権情報を導入した自己蒸留フレームワークであるVISDを提案する。
- 参考スコア(独自算出の注目度): 4.8876574457819855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training VideoLLMs for complex reasoning remains challenging due to sparse sequence level rewards and the lack of fine grained credit assignment over long, temporally grounded reasoning trajectories. While reinforcement learning with verifiable rewards (RLVR) provides reliable supervision, it fails to capture token level contributions, leading to inefficient learning. Conversely, existing self distillation methods offer dense supervision but lack structure and diagnostic specificity, and often interact unstably with reinforcement learning. In this work, we propose VISD, a structured self distillation framework that introduces diagnostically meaningful privileged information for video reasoning. VISD employs a video aware judge model to decompose reasoning quality into multiple dimensions, including answer correctness, logical consistency, and spatio-temporal grounding, and uses this structured feedback to guide a teacher policy for token level supervision. To stably integrate dense supervision with RL, we introduce a direction magnitude decoupling mechanism, where rollout level advantages computed from rewards determine update direction, while structured privileged signals modulate token level update magnitudes. This design enables semantically aligned and fine grained credit assignment, improving both reasoning faithfulness and training efficiency. Additionally, VISD incorporates curriculum scheduling and EMA based teacher stabilization to support robust optimization over long video sequences. Experiments on diverse benchmarks show that VISD consistently outperforms strong baselines, improving answer accuracy and spatio temporal grounding quality. Notably, VISD reaches these gains with nearly 2x faster convergence in optimization steps, highlighting the effectiveness of structured self supervision in improving both performance and sample efficiency for VideoLLMs.
- Abstract(参考訳): 複雑な推論のためのビデオLLMの訓練は、簡潔なシーケンスレベルの報酬と、長期的、時間的基盤の推論軌道上のきめ細かいクレジット割り当ての欠如により、依然として困難である。
検証可能な報酬(RLVR)による強化学習は信頼性の高い監視を提供するが、トークンレベルのコントリビューションをキャプチャできず、非効率な学習につながる。
逆に、既存の自己蒸留法は厳密な監督を提供するが、構造や診断の特異性は欠如しており、しばしば強化学習と不安定に相互作用する。
本研究では,ビデオ推論のための自己蒸留フレームワークVISDを提案する。
VISDは、推論品質を複数の次元に分解するためにビデオ認識判断モデルを使用し、応答の正しさ、論理的整合性、時空間的接地などを用いる。
RLと密集した監視機構を安定的に統合するために、報酬から計算したロールアウトレベルの利点が更新方向を決定する方向のデカップリング機構を導入し、構造化された特権信号はトークンレベルの更新大きさを変調する。
この設計は意味的に整合し、きめ細かなクレジット割り当てを可能にし、推論の忠実さとトレーニングの効率の両方を改善する。
さらに、VISDにはカリキュラムのスケジューリングとEMAベースの教師安定化が組み込まれ、長いビデオシーケンスに対する堅牢な最適化をサポートする。
多様なベンチマークの実験では、VISDは強いベースラインを一貫して上回り、回答精度と時空間グラウンドの品質を改善している。
特に、VISDは最適化ステップにおいてほぼ2倍早く収束し、ビデオLLMの性能とサンプル効率の両方を改善する上で、構造化された自己監督の有効性を強調した。
関連論文リスト
- TRIMMER: A New Paradigm for Video Summarization through Self-Supervised Reinforcement Learning [8.864968998286772]
本稿では,映像要約のための自己教師型強化学習フレームワークを提案する。
教師なし,自己教師なしの手法で最先端の性能を実現することを示す。
教師付きアプローチの先導と競合し続けており、スケーラブルで一般的なビデオ要約の有効性を強調している。
論文 参考訳(メタデータ) (2026-05-03T00:55:02Z) - STRIVE: Structured Spatiotemporal Exploration for Reinforcement Learning in Video Question Answering [28.670443420523796]
STRIVEは質問応答のための構造化強化学習フレームワークである。
報酬シグナルを豊かにし、より安定的で情報的なポリシー更新を促進する。
時間的カバレッジを維持しながら、入力問題に最も関連するフレームを優先順位付けする。
論文 参考訳(メタデータ) (2026-04-02T09:35:27Z) - VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting [58.508924874097715]
VisonCoach は,(1) ビデオと質問に対して適切なプロンプト型を予測する Visual Prompt Selector と,(2) 視覚的プロンプトガイダンスとオブジェクトグラウンド報酬の下で RL で最適化された Spatio-Reasoner の2つのコンポーネントから構成される。
この結果から,トレーニング中の視覚的プロンプトが映像推論を改善するのに対し,注意散布センスは推論時にプロンプトを必要とせず,この能力を実現することが示唆された。
論文 参考訳(メタデータ) (2026-03-15T23:32:02Z) - PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Dataset Awareness is not Enough: Implementing Sample-level Tail Encouragement in Long-tailed Self-supervised Learning [16.110763554788445]
擬似ラベル情報を利用して動的温度と再重み付け戦略を推進し、自己教師付き長期学習に擬似ラベルを導入する。
我々は,温度パラメータにおける量認識の欠如を分析し,この不足を補うために再重み付けを用いて,サンプルレベルで最適なトレーニングパターンを実現する。
論文 参考訳(メタデータ) (2024-10-30T10:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。