論文の概要: Boosting LLM Reasoning via Spontaneous Self-Correction
- arxiv url: http://arxiv.org/abs/2506.06923v1
- Date: Sat, 07 Jun 2025 21:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.066988
- Title: Boosting LLM Reasoning via Spontaneous Self-Correction
- Title(参考訳): 自然自己補正によるLDM推論の高速化
- Authors: Xutong Zhao, Tengyu Xu, Xuewei Wang, Zhengxing Chen, Di Jin, Liang Tan, Yen-Ting, Zishun Yu, Zhuokai Zhao, Yun He, Sinong Wang, Han Fang, Sarath Chandar, Chen Zhu,
- Abstract要約: 数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
- 参考スコア(独自算出の注目度): 43.4980625253775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have demonstrated remarkable success on a broad range of tasks, math reasoning remains a challenging one. One of the approaches for improving math reasoning is self-correction, which designs self-improving loops to let the model correct its own mistakes. However, existing self-correction approaches treat corrections as standalone post-generation refinements, relying on extra prompt and system designs to elicit self-corrections, instead of performing real-time, spontaneous self-corrections in a single pass. To address this, we propose SPOC, a spontaneous self-correction approach that enables LLMs to generate interleaved solutions and verifications in a single inference pass, with generation dynamically terminated based on verification outcomes, thereby effectively scaling inference time compute. SPOC considers a multi-agent perspective by assigning dual roles -- solution proposer and verifier -- to the same model. We adopt a simple yet effective approach to generate synthetic data for fine-tuning, enabling the model to develop capabilities for self-verification and multi-agent collaboration. We further improve its solution proposal and verification accuracy through online reinforcement learning. Experiments on mathematical reasoning benchmarks show that SPOC significantly improves performance. Notably, SPOC boosts the accuracy of Llama-3.1-8B and 70B Instruct models, achieving gains of 8.8% and 11.6% on MATH500, 10.0% and 20.0% on AMC23, and 3.3% and 6.7% on AIME24, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は幅広いタスクにおいて顕著な成功を収めてきたが、数学の推論は依然として難しい課題である。
数学推論を改善するアプローチの1つは自己補正であり、モデルが自身の誤りを修正するために自己改善ループを設計する。
しかし、既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱い、1回のパスでリアルタイムで自発的な自己補正を行う代わりに、追加のプロンプトとシステム設計に依存している。
そこで本研究では,LSMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案し,検証結果に基づいて動的に生成を終了し,推論時間計算を効果的にスケールする。
SPOCは、ソリューションプロジェクタと検証器という2つのロールを同じモデルに割り当てることで、マルチエージェントの観点から考える。
モデルが自己検証とマルチエージェント協調の能力を開発することができるように、我々は、微調整のための合成データを生成するためのシンプルで効果的なアプローチを採用しています。
オンライン強化学習による解法の提案と検証精度をさらに向上する。
数学的推論ベンチマークの実験により、SPOCは性能を著しく改善することが示された。
特に、SPOCはLlama-3.1-8Bと70Bのインストラクトモデルの精度を高め、MATH500では8.8%と11.6%、AMC23では10.0%と20.0%、AIME24では3.3%と6.7%となっている。
関連論文リスト
- Self-Correcting Code Generation Using Small Language Models [11.4397549365277]
自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。
マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。
1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-29T04:04:44Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - CERET: Cost-Effective Extrinsic Refinement for Text Generation [14.43795791836198]
本研究では,意味的安定性,包含性,サンプル間不確実性を考慮したテキスト生成手法であるCERETを提案する。
実験結果から, CERETは, 各種タスク設定下での自己整合性, 自己整合性, 自走性ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-08T22:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。