論文の概要: RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2509.21128v1
- Date: Thu, 25 Sep 2025 13:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.926653
- Title: RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs
- Title(参考訳): RL Squeezes, SFT Expands: Reasoning LLMの比較研究
- Authors: Kohsei Matsutani, Shota Takashiro, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 大規模言語モデル(LLM)は通常、推論能力を改善するために、検証可能な報酬(RLVR)を持つ強化学習(RL)によって訓練される。
本稿では,各学習過程において,推論経路を定量化し,定性的な変化を捉える新しい分析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.196347794452485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are typically trained by reinforcement learning (RL) with verifiable rewards (RLVR) and supervised fine-tuning (SFT) on reasoning traces to improve their reasoning abilities. However, how these methods shape reasoning capabilities remains largely elusive. Going beyond an accuracy-based investigation of how these two components sculpt the reasoning process, this paper introduces a novel analysis framework that quantifies reasoning paths and captures their qualitative changes under each training process (with models of 1.5B, 7B, and 14B parameters on mathematical domains). Specifically, we investigate the reasoning process at two levels of granularity: the trajectory-level, which examines complete reasoning outputs, and the step-level, which analyzes reasoning graphs whose nodes correspond to individual reasoning steps. Notably, clustering of unique reasoning trajectories shows complementary effects: RL compresses incorrect trajectories, whereas SFT expands correct ones. Step-level analysis reveals that RL steepens (about 2.5 times), while SFT flattens (reduced to about one-third), the decay rates of node visitation frequency, degree, and betweenness centrality distributions in the reasoning graph. This indicates that RL concentrates reasoning functionality into a small subset of steps, while SFT homogenizes it across many steps. Furthermore, by evaluating the reasoning graph topologies from multiple perspectives, we delineate the shared and distinct characteristics of RL and SFT. Our work presents a novel reasoning path perspective that explains why the current best practice of two-stage training, with SFT followed by RL, is successful, and offers practical implications for data construction and more efficient learning approaches.
- Abstract(参考訳): 大規模言語モデル (LLM) は、典型的には強化学習 (RL) によって訓練され、検証可能な報酬 (RLVR) と、推論能力を改善するためのトレースの教師付き微調整 (SFT) によって訓練される。
しかし、これらの手法がどのように推論能力を形成するかはほとんど解明されていない。
本稿では,これらの2つの要素が推論過程をどう表現するかを精度的に調査するだけでなく,各学習過程における推論経路を定量化し,定性的な変化を捉える新しい分析フレームワークを提案する(数学的領域における1.5B,7B,14Bのモデルを用いた)。
具体的には、完全な推論出力を調べる軌道レベルと、ノードが個々の推論ステップに対応する推論グラフを分析するステップレベルである。
特に、ユニークな推論軌跡のクラスタリングは相補的な効果を示す: RLは誤った軌跡を圧縮するが、SFTは正しい軌跡を拡大する。
ステップレベル解析により、RLは急上昇(約2.5倍)し、SFTは平坦化(約3分の1に減少)し、ノード訪問頻度、次数、および推論グラフにおける間隙中心性分布の減衰速度が低下することが明らかになった。
これは、RLが推論機能を小さなステップのサブセットに集中していることを示し、SFTはそれを多くのステップでホモジェナイズすることを示している。
さらに、複数の視点から推論グラフトポロジを評価することにより、RLとSFTの共通性と相違点の特徴を明確化する。
本稿では,SFTとRLを併用した2段階学習の実践が成功し,データ構築とより効率的な学習アプローチに実践的な影響をもたらす理由を述べる。
関連論文リスト
- Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning [63.888013006686364]
教師による微調整(SFT)による教師から生徒への推論経路の蒸留は、大規模言語モデル(LLM)の推論能力を向上させるショートカットを提供する。
GSRM(Generative Structure Reward Model)による強化学習に基づく蒸留フレームワークRLKDを提案する。
GSRMは、推論パスを複数のメタ推論解決ステップに変換し、報酬を計算して、学生と教師の推論の構造的アライメントを測定する。
論文 参考訳(メタデータ) (2025-05-22T02:36:36Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。