論文の概要: Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning
- arxiv url: http://arxiv.org/abs/2512.12690v1
- Date: Sun, 14 Dec 2025 13:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.384284
- Title: Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning
- Title(参考訳): スーパービジョンファインチューニングの役割の再評価--VLM推論における実証的研究
- Authors: Yongcan Yu, Lingxiao He, Shuo Lu, Lijun Sheng, Yinuo Xu, Yanbo Wang, Kuangpu Guo, Jianjie Cheng, Meng Wang, Qianlong Xie, Xingxing Wang, Dapeng Hu, Jian Liang,
- Abstract要約: SFTはいくつかのシナリオで重要な役割を果たす。
2Kしか持たないSFTは20KでRLに匹敵するまたはより良い推論性能を達成している。
より高い報酬は、RLの推論精度と相関しない。
- 参考スコア(独自算出の注目度): 30.751908700207185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) reasoning have been largely attributed to the rise of reinforcement Learning (RL), which has shifted the community's focus away from the supervised fine-tuning (SFT) paradigm. Many studies suggest that introducing the SFT stage not only fails to improve reasoning ability but may also negatively impact model training. In this study, we revisit this RL-centric belief through a systematic and controlled comparison of SFT and RL on VLM Reasoning. Using identical data sources, we find that the relative effectiveness of SFT and RL is conditional and strongly influenced by model capacity, data scale, and data distribution. Contrary to common assumptions, our findings show that SFT plays a crucial role across several scenarios: (1) Effectiveness for weaker models. SFT more reliably elicits reasoning capabilities in smaller or weaker VLMs. (2) Data efficiency. SFT with only 2K achieves comparable or better reasoning performance to RL with 20K. (3) Cross-modal transferability. SFT demonstrates stronger generalization across modalities. Moreover, we identify a pervasive issue of deceptive rewards, where higher rewards fail to correlate with better reasoning accuracy in RL. These results challenge the prevailing "RL over SFT" narrative. They highlight that the role of SFT may have been underestimated and support a more balanced post-training pipeline in which SFT and RL function as complementary components.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)推論の進歩は、強化学習(RL)の台頭によるところが大きい。
多くの研究は、SFTステージの導入は推論能力の向上に失敗するだけでなく、モデルトレーニングに悪影響を及ぼす可能性があることを示唆している。
本研究では,VLM推論におけるSFTとRLの体系的・制御的な比較を通じて,このRL中心の信念を再考する。
同一データソースを用いて、SFTとRLの相対的有効性は、モデルキャパシティ、データスケール、データ分散に強く影響されている。
一般的な仮定とは対照的に,SFTはいくつかのシナリオにおいて重要な役割を担っている。
SFTはより確実に、より小さいまたは弱いVLMの推論能力をもたらす。
(2)データ効率。
2Kしか持たないSFTは20KでRLに匹敵するまたはより良い推論性能を達成している。
(3)クロスモーダル転送性。
SFTはモジュラリティをまたいだより強い一般化を示す。
さらに、より高い報酬がRLの推論精度と相関しないような、偽りの報酬の広範な問題を特定する。
これらの結果は、一般的な「RL over SFT」の物語に挑戦する。
彼らは、SFTの役割が過小評価され、SFTとRLが相補的なコンポーネントとして機能するよりバランスのとれたポストトレーニングパイプラインをサポートする可能性があることを強調した。
関連論文リスト
- Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文 参考訳(メタデータ) (2025-10-16T16:02:27Z) - Mitigating Forgetting Between Supervised and Reinforcement Learning Yields Stronger Reasoners [28.039145840787683]
Supervised Fine-tuning (SFT)は相補的な利点を提供するが、通常大規模なデータと過度に適合するリスクを必要とする。
SFTとRLを組み合わせた最近の試みは、データ非効率、アルゴリズム固有の設計、破滅的な忘れ込みという3つの大きな課題に直面している。
本稿では,SFT を RL に動的に統合するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-06T03:01:14Z) - Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文 参考訳(メタデータ) (2025-10-02T02:57:00Z) - RL Fine-Tuning Heals OOD Forgetting in SFT [35.01074051556079]
スーパービジョン・ファインチューニングと強化学習の相乗効果の進化とメカニズムを考察する。
本研究は,2段階微調整におけるSFTとRLの役割を再同定し,特異ベクトルの回転を鍵機構として発見する。
論文 参考訳(メタデータ) (2025-09-08T21:40:41Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。