Fugu-MT 論文翻訳(概要): AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

論文の概要: AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

arxiv url: http://arxiv.org/abs/2506.13284v1
Date: Mon, 16 Jun 2025 09:27:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:47.989987
Title: AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy
Title（参考訳）: AceReason-Nemotron 1.1: SFTとRLのシナジーによる数学とコード推論の改善
Authors: Zihan Liu, Zhuolin Yang, Yang Chen, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping,
Abstract要約: 強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。スケーリング戦略は推理性能に顕著な改善をもたらします我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
参考スコア（独自算出の注目度）: 48.30596996677882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we investigate the synergy between supervised fine-tuning (SFT) and reinforcement learning (RL) in developing strong reasoning models. We begin by curating the SFT training data through two scaling strategies: increasing the number of collected prompts and the number of generated responses per prompt. Both approaches yield notable improvements in reasoning performance, with scaling the number of prompts resulting in more substantial gains. We then explore the following questions regarding the synergy between SFT and RL: (i) Does a stronger SFT model consistently lead to better final performance after large-scale RL training? (ii) How can we determine an appropriate sampling temperature during RL training to effectively balance exploration and exploitation for a given SFT initialization? Our findings suggest that (i) holds true, provided effective RL training is conducted, particularly when the sampling temperature is carefully chosen to maintain the temperature-adjusted entropy around 0.3, a setting that strikes a good balance between exploration and exploitation. Notably, the performance gap between initial SFT models narrows significantly throughout the RL process. Leveraging a strong SFT foundation and insights into the synergistic interplay between SFT and RL, our AceReason-Nemotron-1.1 7B model significantly outperforms AceReason-Nemotron-1.0 and achieves new state-of-the-art performance among Qwen2.5-7B-based reasoning models on challenging math and code benchmarks, thereby demonstrating the effectiveness of our post-training recipe. We release the model and data at: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B
Abstract（参考訳）: 本研究では,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討する。まず、収集したプロンプト数の増加と、プロンプト毎に生成された応答数の増加という、2つのスケーリング戦略を通じて、SFTトレーニングデータをキュレートすることから始める。どちらのアプローチも、推論性能において顕著な改善をもたらし、プロンプトの数を拡大することで、より実質的な利益をもたらす。次に,SFT と RL の相乗関係に関する以下の疑問について考察する。 (i)SFTモデルは大規模RL訓練後に常に良好な最終性能をもたらすか? 2) 所定のSFT初期化の探索と利用を効果的にバランスさせるため、RLトレーニング中に適切なサンプリング温度を決定するにはどうすればよいか。私たちの発見は i) 有効RLトレーニングは, 特に, 温度調整エントロピーを0.3付近に維持するため, サンプリング温度を慎重に選択した場合に実施され, 探索と利用のバランスが良好である。特に、初期SFTモデル間の性能差はRLプロセス全体で著しく狭まる。我々のAceReason-Nemotron-1.1 7Bモデルは、強力なSFT基盤とSFTとRLの相乗的相互作用を生かし、AceReason-Nemotron-1.0を著しく上回り、Qwen2.5-7Bベースの推論モデルにおいて、挑戦的な数学とコードベンチマークに関する新しい最先端のパフォーマンスを実現し、トレーニング後のレシピの有効性を示す。 https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B

関連論文リスト

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文参考訳（メタデータ） (2025-08-07T17:53:47Z)
Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them [25.324955028065887]
一般的な2つのアプローチは強化学習(RL)と教師付き微調整(SFT)である。 MMLUのような知識集約型ベンチマークでは,RLは数学の領域内ゲインとわずかに低下することがわかった。 SFTはさらなる更新を示し、中間層クエリにも影響し、ドメイン外劣化を引き起こした可能性があると推測する。
論文参考訳（メタデータ） (2025-07-13T19:04:17Z)
The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。 SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文参考訳（メタデータ） (2025-07-10T09:05:49Z)
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。 textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning) ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文参考訳（メタデータ） (2025-06-09T08:11:20Z)
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning [6.92510069380188]
8つの推論課題におけるSFTとRLのダイナミクスについて検討する。ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与する。バックトラックの長いCoTは、一般的にRLトレーニングをより良く安定したものにします。
論文参考訳（メタデータ） (2025-05-30T06:49:00Z)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳（メタデータ） (2025-05-22T08:50:47Z)
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。 SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文参考訳（メタデータ） (2025-04-10T16:54:05Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。 SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文参考訳（メタデータ） (2024-06-14T03:39:01Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。