Fugu-MT 論文翻訳(概要): Self-rewarding correction for mathematical reasoning

論文の概要: Self-rewarding correction for mathematical reasoning

arxiv url: http://arxiv.org/abs/2502.19613v1
Date: Wed, 26 Feb 2025 23:01:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.647183
Title: Self-rewarding correction for mathematical reasoning
Title（参考訳）: 数学的推論のための自己回帰補正
Authors: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang,
Abstract要約: 我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。 LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
参考スコア（独自算出の注目度）: 19.480508580498103
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We study self-rewarding reasoning large language models (LLMs), which can simultaneously generate step-by-step reasoning and evaluate the correctness of their outputs during the inference time-without external feedback. This integrated approach allows a single model to independently guide its reasoning process, offering computational advantages for model deployment. We particularly focus on the representative task of self-correction, where models autonomously detect errors in their responses, revise outputs, and decide when to terminate iterative refinement loops. To enable this, we propose a two-staged algorithmic framework for constructing self-rewarding reasoning models using only self-generated data. In the first stage, we employ sequential rejection sampling to synthesize long chain-of-thought trajectories that incorporate both self-rewarding and self-correction mechanisms. Fine-tuning models on these curated data allows them to learn the patterns of self-rewarding and self-correction. In the second stage, we further enhance the models' ability to assess response accuracy and refine outputs through reinforcement learning with rule-based signals. Experiments with Llama-3 and Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction capabilities and achieves performance comparable to systems that rely on external reward models.
Abstract（参考訳）: 本研究では,段階的推論を同時に生成し,外部からのフィードバックを伴わない推論時間における出力の正しさを評価する,自己回帰推論大言語モデル (LLM) について検討する。この統合されたアプローチにより、単一のモデルがその推論プロセスを独立してガイドすることができ、モデルデプロイメントの計算上の利点を提供する。我々は特に自己補正の代表的なタスクに注目し、モデルが応答中のエラーを自律的に検出し、出力を修正し、繰り返し洗練されたループをいつ終了するかを決定する。これを実現するために,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。第1段階では、自己回帰と自己補正の両方を組み込んだ長い連鎖軌道を合成するために、逐次的拒絶サンプリングを用いる。これらのキュレートされたデータに基づく微調整モデルは、自己回帰と自己補正のパターンを学習することができる。第2段階では,ルールに基づく信号を用いた強化学習を通じて,応答精度の評価と出力の洗練を行うモデルの能力をさらに強化する。 Llama-3 と Qwen-2.5 を用いた実験では,本手法は本質的な自己補正能力を超え,外部報酬モデルに依存するシステムに匹敵する性能を実現する。

関連論文リスト

Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。 R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。 R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2026-03-02T17:20:10Z)
Counterfactual Self-Questioning for Stable Policy Optimization in Language Models [0.0]
本稿では,一つの言語モデルが自己推論の反現実的批判を生成・評価するフレームワークである反現実的自問法を提案する。複数の数学的推論ベンチマークの実験は、特により小さなモデルにおいて、反実的な自己探究によって精度と訓練安定性が向上することを示している。
論文参考訳（メタデータ） (2025-12-31T09:10:37Z)
LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文参考訳（メタデータ） (2025-10-16T17:55:11Z)
Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-27T10:37:11Z)
Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文参考訳（メタデータ） (2025-06-18T21:35:44Z)
From Emergence to Control: Probing and Modulating Self-Reflection in Language Models [23.176641726866105]
自己回帰は、検証可能な報酬を伴う強化学習によって実現される強力な行動である。自己回帰は微調整モデルに限らないことを示す。
論文参考訳（メタデータ） (2025-06-13T20:40:13Z)
Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文参考訳（メタデータ） (2025-06-02T06:54:29Z)
Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-08T04:39:51Z)
Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。本稿では,自己改善のための数学的定式化について述べる。また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文参考訳（メタデータ） (2024-12-03T18:47:26Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)
On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文参考訳（メタデータ） (2024-06-04T14:55:43Z)
LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文参考訳（メタデータ） (2024-05-15T13:35:43Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。