論文の概要: Incentivizing LLMs to Self-Verify Their Answers
- arxiv url: http://arxiv.org/abs/2506.01369v1
- Date: Mon, 02 Jun 2025 06:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.077499
- Title: Incentivizing LLMs to Self-Verify Their Answers
- Title(参考訳): LLMの自己検証へのインセンティブ
- Authors: Fuxiang Zhang, Jiacheng Xu, Chaojie Wang, Ce Cui, Yang Liu, Bo An,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
- 参考スコア(独自算出の注目度): 20.2584779107763
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable progress in complex reasoning tasks through both post-training and test-time scaling laws. While prevalent test-time scaling approaches are often realized by using external reward models to guide the model generation process, we find only marginal gains can be acquired when scaling a model post-trained on specific reasoning tasks. We identify that the limited improvement stems from distribution discrepancies between the specific post-trained generator and the general reward model. To address this, we propose a framework that incentivizes LLMs to self-verify their own answers. By unifying answer generation and verification within a single reinforcement learning (RL) process, we train models that can effectively assess the correctness of their own solutions. The trained model can further scale its performance during inference time by verifying its generations, without the need for external verifiers. We train our self-verification models based on Qwen2.5-Math-7B and DeepSeek-R1-Distill-Qwen-1.5B, demonstrating its capabilities across varying reasoning context lengths. Experiments on multiple mathematical reasoning benchmarks show that our models can not only improve post-training performance but also enable effective test-time scaling. Our code is available at https://github.com/mansicer/self-verification.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ポストトレーニングとテストタイムスケーリングの法則を通じて、複雑な推論タスクにおいて顕著な進歩を見せている。
一般的なテストタイムスケーリングアプローチは、モデル生成プロセスのガイドに外部報酬モデルを使用することで実現されることが多いが、特定の推論タスクでトレーニング後のモデルをスケーリングする際には、限界利得しか得られない。
制限された改善は、特定の訓練後ジェネレータと一般報酬モデルとの分布の相違に起因する。
そこで本稿では,LLMをインセンティブとして,自身の回答を自己検証するフレームワークを提案する。
一つの強化学習(RL)プロセスで回答の生成と検証を統一することにより、我々は、自分たちの解の正しさを効果的に評価できるモデルを訓練する。
トレーニングされたモデルは、外部検証を必要とせずに、世代を検証することで、推論時間中にさらにパフォーマンスをスケールすることができる。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練し、その能力を様々な推論コンテキストで示す。
複数の数学的推論ベンチマークの実験は、我々のモデルがトレーニング後の性能を改善するだけでなく、効果的なテスト時間スケーリングを可能にしていることを示している。
私たちのコードはhttps://github.com/mansicer/self-verification.comで利用可能です。
関連論文リスト
- Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。