論文の概要: VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization
- arxiv url: http://arxiv.org/abs/2505.19000v1
- Date: Sun, 25 May 2025 06:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.824763
- Title: VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization
- Title(参考訳): VerIPO: Verifier-Gudied Iterative Policy OptimizationによるビデオLLMのロング推論の育成
- Authors: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang,
- Abstract要約: VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
- 参考スコア(独自算出の注目度): 59.39976343879587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Applying Reinforcement Learning (RL) to Video Large Language Models (Video-LLMs) shows significant promise for complex video reasoning. However, popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group Relative Policy Optimization (GRPO), are limited by data preparation bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the quality of long chain-of-thoughts (CoTs) and downstream performance.To address these limitations, we propose VerIPO, a Verifier-guided Iterative Policy Optimization method designed to gradually improve video LLMs' capacity for generating deep, long-term reasoning chains. The core component is Rollout-Aware Verifier, positioned between the GRPO and Direct Preference Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop. This verifier leverages small LLMs as a judge to assess the reasoning logic of rollouts, enabling the construction of high-quality contrastive data, including reflective and contextually consistent CoTs. These curated preference samples drive the efficient DPO stage (7x faster than GRPO), leading to marked improvements in reasoning chain quality, especially in terms of length and contextual consistency. This training loop benefits from GRPO's expansive search and DPO's targeted optimization. Experimental results demonstrate: 1) Significantly faster and more effective optimization compared to standard GRPO variants, yielding superior performance; 2) Our trained models exceed the direct inference of large-scale instruction-tuned Video-LLMs, producing long and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long reasoning models (e.g., Video-R1), highlighting its effectiveness and stability.
- Abstract(参考訳): RL(Reinforcement Learning)をビデオ大言語モデル(Video Large Language Models, ビデオ大言語モデル)に適用することは、複雑なビデオ推論にとって大きな可能性を示す。
しかし、結果に基づくグループ相対的政策最適化(GRPO)のようなRFT(Reinforcement Fine-Tuning)手法は、データ準備のボトルネック(例えば、ノイズや高コスト)によって制限され、長い連鎖(CoT)の品質や下流のパフォーマンスの不安定な改善を示す。
コアコンポーネントは Rollout-Aware Verifier であり、GRPO と Direct Preference Optimization (DPO) のトレーニングフェーズの間に位置し、GRPO-Verifier-DPO トレーニングループを形成する。
この検証器は、小さなLCMを判断として利用し、ロールアウトの推論ロジックを評価し、反射的および文脈的に整合したCoTを含む高品質なコントラストデータの構築を可能にする。
これらのキュレートされた選好サンプルは、効率的なDPOステージ(GRPOより7倍速い)を駆動し、特に長さと文脈の整合性の点で、推論チェーンの品質が著しく向上した。
このトレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受ける。
実験結果は以下の通りである。
1) GRPOの標準変種に比べて大幅に高速で効率的な最適化を行い、性能が向上する。
2)訓練されたモデルは,大規模指導訓練ビデオLLMの直接推定を超え,多種多様なビデオ推論タスクにおいて,時間的・文脈的に一貫したCoTを生成する。
3)1イテレーションのモデルは強力なLMM(例:Kim-VL)と長い推論モデル(例:Video-R1)より優れており,その有効性と安定性を強調している。
関連論文リスト
- TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。
提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。
我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文 参考訳(メタデータ) (2025-03-21T08:00:29Z) - Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation [29.579349371114702]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。
粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。
単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
論文 参考訳(メタデータ) (2025-03-17T06:28:25Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。
Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。
実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-13T14:18:58Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - ICDPO: Effectively Borrowing Alignment Capability of Others via
In-context Direct Preference Optimization [24.55845271377532]
大規模な言語モデルは、安全なコンテンツの生成を保証するためにヒューマン・プライオリエンス・アライメントに依存している。
In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しい手法を提案する。
ICDPOは、上記インスタントスコアラによって推定された整列応答を生成し、最終性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。