論文の概要: How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.24273v1
- Date: Fri, 30 May 2025 06:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.813038
- Title: How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning
- Title(参考訳): どのくらいのバックトラッキングが十分か? LLM推論の強化におけるSFTとRLの相互作用を探る
- Authors: Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra,
- Abstract要約: 8つの推論課題におけるSFTとRLのダイナミクスについて検討する。
ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与する。
バックトラックの長いCoTは、一般的にRLトレーニングをより良く安定したものにします。
- 参考スコア(独自算出の注目度): 6.92510069380188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in large language models (LLMs) have effectively improved their reasoning abilities, particularly on mathematical and logical problems that have verifiable answers, through techniques such as supervised finetuning (SFT) and reinforcement learning (RL). Prior research indicates that RL effectively internalizes search strategies, enabling long chain-of-thought (CoT) reasoning, with backtracking emerging naturally as a learned capability. However, the precise benefits of backtracking, specifically, how significantly it contributes to reasoning improvements and the optimal extent of its use, remain poorly understood. In this work, we systematically investigate the dynamics between SFT and RL on eight reasoning tasks: Countdown, Sudoku, Arc 1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, and Self Reference. Our findings highlight that short CoT sequences used in SFT as a warm-up do have moderate contribution to RL training, compared with cold-start RL; however such contribution diminishes when tasks become increasingly difficult. Motivated by this observation, we construct synthetic datasets varying systematically in the number of backtracking steps and conduct controlled experiments to isolate the influence of either the correctness (content) or the structure (i.e., backtrack frequency). We find that (1) longer CoT with backtracks generally induce better and more stable RL training, (2) more challenging problems with larger search space tend to need higher numbers of backtracks during the SFT stage. Additionally, we demonstrate through experiments on distilled data that RL training is largely unaffected by the correctness of long CoT sequences, suggesting that RL prioritizes structural patterns over content correctness. Collectively, our results offer practical insights into designing optimal training strategies to effectively scale reasoning in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近のブレークスルーは、特に、教師付き微調整(SFT)や強化学習(RL)といった手法によって、検証可能な答えを持つ数学的および論理的問題において、推論能力を効果的に改善している。
従来の研究では、RLは検索戦略を効果的に内部化し、長いチェーン・オブ・シント(CoT)推論を可能にし、バックトラックは学習能力として自然に現れることが示されている。
しかし、バックトラックの正確な利点、具体的には、それが改善の推論とその使用の最適範囲にどれほど大きく貢献するかは理解されていない。
本研究では,SFT と RL 間の力学を,Countdown,Sudoku,Arc 1D,Geometry,Color Cube Rotation,List Function,Zebra Puzzles,Self Reference の8つの推論タスクで体系的に検討する。
ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与するが、タスクが困難になるにつれてその寄与は減少する。
本研究の目的は, バックトラックのステップ数に応じて系統的に変化する合成データセットを構築し, 正しい(コンテンツ)か, 構造(バックトラック周波数)の影響を分離する制御実験を行うことである。
その結果,(1) バックトラックの長いCoTは, より優れたRLトレーニングを誘導し, (2) より大きな検索空間におけるより困難な問題では, SFT 段階ではバックトラックの数が増加する傾向にあることがわかった。
さらに、RLトレーニングが長いCoT配列の正しさにほとんど影響しない蒸留データについて実験を行い、RLが内容の正しさよりも構造パターンを優先することが示唆された。
本研究は,LLMにおける推論を効果的にスケールするための最適トレーニング戦略の設計に関する実践的な洞察を提供する。
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Demystifying Long Chain-of-Thought Reasoning in LLMs [46.352406501403465]
ロングチェーン・オブ・シント(CoT)は、バックトラックやエラー修正のような戦略を可能にする。
強化学習(Reinforcement Learning, RL)は、これらの能力を開発する上で重要な方法である。
モデルが長いCoT軌道を生成できる重要な要素を同定する。
論文 参考訳(メタデータ) (2025-02-05T17:13:32Z) - Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control [12.832009040635462]
強化学習(Reinforcement Learning, RL)は, インベントリコントロール(IC)領域において, 優れた性能と汎用性があることが証明されている。
オンライン体験は、現実世界のアプリケーションで入手するのに費用がかかる。
オンライン体験は、ICの典型的な失業現象による真の需要を反映していない可能性がある。
論文 参考訳(メタデータ) (2024-06-26T13:52:47Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。