論文の概要: Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training
- arxiv url: http://arxiv.org/abs/2602.10815v1
- Date: Wed, 11 Feb 2026 12:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.905806
- Title: Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training
- Title(参考訳): なぜRLはSFTよりも一般化するのか? VLM後のデータ中心の視点から
- Authors: Aojun Lu, Tao Feng, Hangjie Yuan, Wei Li, Yanan Sun,
- Abstract要約: 大規模ビジョン・ランゲージモデル(VLM)は、スーパーバイザード・ファインチューニング(SFT)で訓練されたモデルと比較して、OOD(out-of-distriion)の性能を一貫して向上させる。
本稿では、この現象をデータ中心で説明し、RLの一般化の優位性は、本来は中分散学習サンプルを優先する暗黙のデータフィルタリング機構から生じることを主張する。
実験により、Difficulty-Curated SFT は標準 SFT よりも OOD の一般化を大幅に促進するだけでなく、RL ベースのトレーニングの性能を上回り、安定性と計算効率を向上させることが示されている。
- 参考スコア(独自算出の注目度): 18.926351241813425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The adaptation of large-scale Vision-Language Models (VLMs) through post-training reveals a pronounced generalization gap: models fine-tuned with Reinforcement Learning (RL) consistently achieve superior out-of-distribution (OOD) performance compared to those trained with Supervised Fine-Tuning (SFT). This paper posits a data-centric explanation for this phenomenon, contending that RL's generalization advantage arises from an implicit data filtering mechanism that inherently prioritizes medium-difficulty training samples. To test this hypothesis, we systematically evaluate the OOD generalization of SFT models across training datasets of varying difficulty levels. Our results confirm that data difficulty is a critical factor, revealing that training on hard samples significantly degrades OOD performance. Motivated by this finding, we introduce Difficulty-Curated SFT (DC-SFT), a straightforward method that explicitly filters the training set based on sample difficulty. Experiments show that DC-SFT not only substantially enhances OOD generalization over standard SFT, but also surpasses the performance of RL-based training, all while providing greater stability and computational efficiency. This work offers a data-centric account of the OOD generalization gap in VLMs and establishes a more efficient pathway to achieving robust generalization. Code is available at https://github.com/byyx666/DC-SFT.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)で微調整されたモデルでは, 教師付き微調整(Supervised Fine-Tuning, SFT)で訓練したモデルに比べて, OODの性能が一貫して向上している。
本稿では、この現象をデータ中心で説明し、RLの一般化の優位性は、本来は中分散学習サンプルを優先する暗黙的なデータフィルタリング機構から生じることを主張する。
この仮説を検証するため,SFTモデルのOOD一般化を,様々な難易度を持つ訓練データセット間で体系的に評価した。
その結果,データの難易度が重要な要因であることが確認され,ハードサンプルのトレーニングがOOD性能を著しく低下させることが明らかとなった。
そこで本研究では,Difficulty-Curated SFT (DC-SFT) を提案する。
実験により、DC-SFTは標準SFTよりもOODの一般化を大幅に向上するだけでなく、RLベースのトレーニングの性能を上回り、安定性と計算効率を向上させることが示されている。
この研究は、VLMにおけるOOD一般化ギャップに関するデータ中心の説明を提供し、堅牢な一般化を達成するためのより効率的な経路を確立する。
コードはhttps://github.com/byyx666/DC-SFTで入手できる。
関連論文リスト
- Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。
この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-01-12T05:43:20Z) - Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning [30.751908700207185]
SFTはいくつかのシナリオで重要な役割を果たす。
2Kしか持たないSFTは20KでRLに匹敵するまたはより良い推論性能を達成している。
より高い報酬は、RLの推論精度と相関しない。
論文 参考訳(メタデータ) (2025-12-14T13:46:42Z) - Debunk the Myth of SFT Generalization [13.700645417996412]
一般的な見解では、教師付き微調整(SFT)は一般化に失敗するが、強化学習(RL)はより広範な堅牢性を実現する。
SFTが認識する障害の多くは凍結急激な人工物によるものであることを示す。
SFTがより厳密なタスクを一般化できるかどうかを問う。
論文 参考訳(メタデータ) (2025-09-30T20:01:09Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved) [3.13388270461847]
我々は、教師付き微調整(SFT)と強化学習(RL)による最適政策の発見理論と実践との関係を描いている。
SFTに小さな修正を加えることで、RLのトレーニングに近く行動する重み付き変異が重要となることを示す。
我々は、この変種を重み付けされた教師付き微調整(iw-SFT)として参照する。
論文 参考訳(メタデータ) (2025-07-17T07:26:54Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals [49.17123504516502]
大規模言語モデル(LLM)のためのRFTパラダイムは、均一なデータサンプリングの下で同じクエリが冗長に露出するため、効率が悪い。
グラディエント駆動型アングルインフォームドナビゲーションRLフレームワークを提案する。
モデル固有の角度集中信号を利用することで、GAIN-RLは各エポックにおけるトレーニングデータを動的に選択し、一貫したインパクトのある勾配更新を確実にする。
論文 参考訳(メタデータ) (2025-06-02T21:40:38Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。