論文の概要: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning
- arxiv url: http://arxiv.org/abs/2505.18116v2
- Date: Wed, 28 May 2025 17:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:28.079604
- Title: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning
- Title(参考訳): 数学的推論におけるブリッジング指導学習と強化学習
- Authors: Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
- 参考スコア(独自算出の注目度): 55.889740979706815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has played a central role in the recent surge of LLMs' math abilities by enabling self-improvement through binary verifier signals. In contrast, Supervised Learning (SL) is rarely considered for such verification-driven training, largely due to its heavy reliance on reference answers and inability to reflect on mistakes. In this work, we challenge the prevailing notion that self-improvement is exclusive to RL and propose Negative-aware Fine-Tuning (NFT) -- a supervised approach that enables LLMs to reflect on their failures and improve autonomously with no external teachers. In online training, instead of throwing away self-generated negative answers, NFT constructs an implicit negative policy to model them. This implicit policy is parameterized with the same positive LLM we target to optimize on positive data, enabling direct policy optimization on all LLMs' generations. We conduct experiments on 7B and 32B models in math reasoning tasks. Results consistently show that through the additional leverage of negative feedback, NFT significantly improves over SL baselines like Rejection sampling Fine-Tuning, matching or even surpassing leading RL algorithms like GRPO and DAPO. Furthermore, we demonstrate that NFT and GRPO are actually equivalent in strict-on-policy training, even though they originate from entirely different theoretical foundations. Our experiments and theoretical findings bridge the gap between SL and RL methods in binary-feedback learning systems.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、近年のLLMの数学能力の急上昇において、バイナリ検証信号による自己改善によって中心的な役割を担っている。
これとは対照的に、このような検証駆動型トレーニングでは、参照回答に大きく依存していることや、ミスを反映できないことなどから、SL(Supervised Learning)はめったに考えられない。
本研究では、自己改善はRLに排他的であるという一般的な考え方に挑戦し、LLMが障害を反映し、外部教師なしで自律的に改善できる監視的アプローチであるNFT(Negative-aware Fine-Tuning)を提案する。
オンライントレーニングでは、自己生成のネガティブな回答を捨てる代わりに、NFTはそれをモデル化するために暗黙のネガティブなポリシーを構築している。
この暗黙のポリシーは、我々が対象とするのと同じ正のLLMでパラメータ化され、全てのLLM世代で直接のポリシー最適化を可能にする。
数学推論における7Bモデルと32Bモデルの実験を行った。
結果は、負のフィードバックのさらなる活用により、NFTは、Rejection sample Fine-Tuning、マッチング、あるいはGRPOやDAPOのような主要なRLアルゴリズムを超えるようなSLベースラインを大幅に改善することを示している。
さらに, NFT と GRPO は, 完全に異なる理論基盤から派生したものであっても, 厳密な政治訓練において実際に等価であることを示す。
我々の実験と理論的知見は,2元フィードバック学習システムにおけるSL法とRL法とのギャップを埋めるものである。
関連論文リスト
- TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Online Preference-based Reinforcement Learning with Self-augmented Feedback from Large Language Model [17.4036850872656]
嗜好に基づく強化学習(PbRL)は、人間の嗜好に基づいて報酬を学習することで、巧妙な報酬工学を避けるための強力なパラダイムを提供する。
本稿では,オンラインPbRLの特権情報に依存しないRL自己拡張大言語モデルフィードバック(RL-SaLLM-F)手法を提案する。
論文 参考訳(メタデータ) (2024-12-22T06:15:25Z) - Balancing Exploration and Exploitation in LLM using Soft RLLF for
Enhanced Negation Understanding [4.799288023353623]
NLPにおける微調整のアプローチは、しばしば探索よりも搾取に焦点を当てる。
論理フィードバックからの強化学習を活用して、言語モデルにおける探索と搾取の効果的なバランスを作る。
これは、より正確で信頼性があり、論理的に一貫した言語モデルの開発に意味を持つ。
論文 参考訳(メタデータ) (2024-03-02T11:54:55Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。