論文の概要: Reinforcing Structured Chain-of-Thought for Video Understanding
- arxiv url: http://arxiv.org/abs/2603.25942v1
- Date: Thu, 26 Mar 2026 22:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.29852
- Title: Reinforcing Structured Chain-of-Thought for Video Understanding
- Title(参考訳): 映像理解のための構造的チェーンの強化
- Authors: Peiyao Wang, Haotian Xu, Noranart Vesdapunt, Rui Hou, Jingyi Zhang, Haibin Ling, Oleksandr Obiednikov, Ning Zhou, Kah Kuen Fu,
- Abstract要約: 概要駆動強化学習(SDRL)を紹介する。
SDRLは、Supervised Fine-Tuning (SFT)の必要性を回避したシングルステージのRLフレームワークである。
提案手法は、7つの公開ビデオQAデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 49.3086326382764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models (MLLMs) show promise in video understanding. However, their reasoning often suffers from thinking drift and weak temporal comprehension, even when enhanced by Reinforcement Learning (RL) techniques like Group Relative Policy Optimization (GRPO). Moreover, existing RL methods usually depend on Supervised Fine-Tuning (SFT), which requires costly Chain-of-Thought (CoT) annotation and multi-stage training, and enforces fixed reasoning paths, limiting MLLMs' ability to generalize and potentially inducing bias. To overcome these limitations, we introduce Summary-Driven Reinforcement Learning (SDRL), a novel single-stage RL framework that obviates the need for SFT by utilizing a Structured CoT format: Summarize -> Think -> Answer. SDRL introduces two self-supervised mechanisms integrated into the GRPO objective: 1) Consistency of Vision Knowledge (CVK) enforces factual grounding by reducing KL divergence among generated summaries; and 2) Dynamic Variety of Reasoning (DVR) promotes exploration by dynamically modulating thinking diversity based on group accuracy. This novel integration effectively balances alignment and exploration, supervising both the final answer and the reasoning process. Our method achieves state-of-the-art performance on seven public VideoQA datasets.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)はビデオ理解において有望であることを示す。
しかしながら、それらの推論はしばしば、グループ相対政策最適化(GRPO)のような強化学習(RL)技術によって強化されたとしても、ドリフトと弱い時間的理解に悩まされる。
さらに、既存のRLメソッドは通常、コストのかかるCoT(Chain-of-Thought)アノテーションとマルチステージトレーニングを必要とするSupervised Fine-Tuning (SFT)に依存する。
このような制約を克服するために,構造化CoTフォーマットを活用することでSFTの必要性を解消する,SDRL(Slide-Driven Reinforcement Learning)を導入した。
SDRLはGRPOの目的に組み込まれた2つの自己制御機構を導入している。
1)視覚知識の一貫性(CVK)は、生成された要約間のKLのばらつきを減らし、事実的根拠を強制する。
2) DVR(Dynamic Variety of Reasoning)は,グループ精度に基づいて思考の多様性を動的に調節することで探索を促進する。
この新たな統合はアライメントと探索を効果的にバランスさせ、最終的な回答と推論プロセスの両方を監督する。
提案手法は、7つの公開ビデオQAデータセット上での最先端性能を実現する。
関連論文リスト
- L2V-CoT: Cross-Modal Transfer of Chain-of-Thought Reasoning via Latent Intervention [47.82350055363378]
Chain-of-Thought (CoT)推論は、大規模言語モデル(LLM)の機能を大幅に強化した。
既存のアプローチでは、高いトレーニングコストが必要か、アーキテクチャアライメントが必要になります。
L2V-CoTは,LLMからVLMへCoT推論を伝達する新しい訓練不要潜伏介入手法である。
論文 参考訳(メタデータ) (2025-11-22T04:25:25Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。