論文の概要: The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
- arxiv url: http://arxiv.org/abs/2507.07562v1
- Date: Thu, 10 Jul 2025 09:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.33524
- Title: The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
- Title(参考訳): Long-CoT SFT と RL の相乗ジレンマ: VLM の推論におけるポストトレーニング手法の検討
- Authors: Jierun Chen, Tiezheng Yu, Haoli Bai, Lewei Yao, Jiannan Wu, Kaican Li, Fei Mi, Chaofan Tao, Lei Zhu, Manyi Zhang, Xiaohui Li, Lu Hou, Lifeng Shang, Qun Liu,
- Abstract要約: 大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
- 参考スコア(独自算出の注目度): 66.17068546293487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) increasingly adopt post-training techniques such as long chain-of-thought (CoT) supervised fine-tuning (SFT) and reinforcement learning (RL) to elicit sophisticated reasoning. While these methods exhibit synergy in language-only models, their joint effectiveness in VLMs remains uncertain. We present a systematic investigation into the distinct roles and interplay of long-CoT SFT and RL across multiple multimodal reasoning benchmarks. We find that SFT improves performance on difficult questions by in-depth, structured reasoning, but introduces verbosity and degrades performance on simpler ones. In contrast, RL promotes generalization and brevity, yielding consistent improvements across all difficulty levels, though the improvements on the hardest questions are less prominent compared to SFT. Surprisingly, combining them through two-staged, interleaved, or progressive training strategies, as well as data mixing and model merging, all fails to produce additive benefits, instead leading to trade-offs in accuracy, reasoning style, and response length. This ``synergy dilemma'' highlights the need for more seamless and adaptive approaches to unlock the full potential of combined post-training techniques for reasoning VLMs.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
これらの手法は言語のみのモデルにおいて相乗効果を示すが、VLMにおける連立効果は未だ不明である。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
対照的に、RLは一般化と簡潔性を促進し、すべての難易度で一貫した改善をもたらすが、最も難しい質問の改善はSFTに比べて目立たない。
驚くべきことに、これらを2段階、インターリーブ、あるいはプログレッシブなトレーニング戦略、データミキシングとモデルマージで組み合わせると、すべて追加的なメリットを得られず、代わりに正確性、推論スタイル、レスポンス長のトレードオフにつながります。
この 'synergy dilemma' は、VLMを推論するためのポストトレーニング技術の組み合わせの可能性を最大限に活用するために、よりシームレスで適応的なアプローチの必要性を強調している。
関連論文リスト
- Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。
SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Empowering Small VLMs to Think with Dynamic Memorization and Exploration [5.2613925143497635]
信頼性の高い思考能力を持つ小型ビジョンランゲージモデル(SVLM)は、基本的には困難である。
Supervised Fine-Tuning (SFT) や Reinforcement Learning with Verifiable Reward (RLVR) といった既存のトレーニングパラダイムは、ベースVLMにかなりの要求を課している。
我々は,各最適化ステップで(SFT経由)記憶モードと(RLVR経由)探索モードを動的に選択する新しいトレーニングパラダイムであるDyMEを提案する。
論文 参考訳(メタデータ) (2025-06-29T02:19:51Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning [6.92510069380188]
8つの推論課題におけるSFTとRLのダイナミクスについて検討する。
ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与する。
バックトラックの長いCoTは、一般的にRLトレーニングをより良く安定したものにします。
論文 参考訳(メタデータ) (2025-05-30T06:49:00Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs [13.292104357930866]
SASRは、大規模言語モデルのためのステップワイド適応型ハイブリッドトレーニングフレームワークである。
SFTとRLを統一し、最適化全体を通して動的に2つのバランスをとる。
実験の結果,SASRはSFT,RL,静的ハイブリッド訓練法より優れていた。
論文 参考訳(メタデータ) (2025-05-19T12:10:17Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。