論文の概要: Self-Trained Verification for Training- and Test-Time Self-Improvement
- arxiv url: http://arxiv.org/abs/2605.30290v2
- Date: Sun, 31 May 2026 05:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.838552
- Title: Self-Trained Verification for Training- and Test-Time Self-Improvement
- Title(参考訳): 学習時間とテスト時間の自己改善のための自己学習検証
- Authors: Chen Henry Wu, Aditi Raghunathan,
- Abstract要約: 自己学習検証(STV)は、自己生成エラーをキャッチするためにモデルを訓練する。
STVは、ハード数学の精度をおよそ2倍にし、科学的推論タスクの14倍に上げる。
難しい問題に対する推論の次のフロンティアは、トレーニングの方法と検証の方法にあります。
- 参考スコア(独自算出の注目度): 31.205303703684013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-improvement at scale has been a longstanding goal for reasoning models, and there are two natural places to do it: at test time, through verification-refinement (V-R) loops; and at training time, through self-training methods. Both are gated by the same bottleneck: the verifier. V-R loops stall when verifier scores inflate while accuracy stagnates, and when feedback is too generic to act on; self-training fails similarly when bad self-generated data are added to training. Better verification would unlock both, but the capability we want to train, i.e., catching self-generated errors, lacks training signal. To address this challenge, we propose self-trained verification (STV). Our key observation is that, while a model cannot catch these errors alone, it can when shown the reference solution. We turn this asymmetry into a supervision target and train the verifier to imitate a more informed version of itself. At test time, STV substantially improves V-R loops on hard problems, while alternatives (e.g., SFT, RL on verifier scores, and even meta-verifiers) do not. STV roughly doubles accuracy on hard math and lifts it 14x on scientific reasoning tasks (1.5% to 21%). At training time, we additionally train the generator using RL with STV verifier's feedback inside the V-R loop - a procedure we call verifier-in-the-loop training (ViL). Starting from an RL-converged generator, ViL yields a further 33% gain in pass@1. More notably, the generator's standalone pass@1, with no verifier at test time, climbs 30% relative past where standard RL had converged. Hence, the next frontier in reasoning on hard problems may lie in how we train for and with verification. Website: https://ar-forum.github.io/stv-webpage
- Abstract(参考訳): 大規模な自己改善は、モデル推論の長年の目標であり、テスト時、検証-リファインメント(V-R)ループ、トレーニング時、自己学習手法の2つの自然な場所があります。
どちらも同じボトルネックによってゲートされる。
V-Rループは、検証器のスコアが低下する一方で精度が低下し、フィードバックがジェネリック過ぎると動作が停止する。
より優れた検証は両方をアンロックするが、トレーニングしたい能力、すなわち自己生成エラーをキャッチする能力は、トレーニング信号に欠ける。
この課題に対処するため,我々は自己学習型検証(STV)を提案する。
私たちのキーとなる観察は、モデルだけではこれらのエラーをキャッチできないが、参照ソリューションを示すとできるということです。
我々は、この非対称性を監督対象にし、検証者に対して、より情報に富んだ自身のバージョンを模倣するように訓練する。
テスト時には、STVは難しい問題に対するV-Rループを大幅に改善するが、検証器スコアの代替(例えば、SFT、RL、メタ検証器)はそうではない。
STVはハード数学の精度をおよそ2倍にし、科学的推論タスク(1.5%から21%)で14倍に上げる。
トレーニング時には、V-Rループ内でSTV検証者のフィードバックでRLを使用してジェネレータをトレーニングする。
RL変換ジェネレータから始めて、ViLはpass@1でさらに33%のゲインを得る。
さらに注目すべきは、ジェネレータのスタンドアロンのpass@1は、テスト時に検証子なしで、標準のRLが収束した相対的に30%以上上昇していることだ。
したがって、難しい問題に対する推論における次のフロンティアは、トレーニングの方法と検証の方法にあります。
ウェブサイト:https://ar-forum.github.io/stv-webpage
関連論文リスト
- LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking [43.633688879582714]
モデルが論理規則を導出し出力しなければならない帰納的推論タスクについて検討する。
RLVRで訓練されたモデルは規則誘導を体系的に放棄する。
この行動は理解の失敗ではなく、報酬ハックの一形態であることを示す。
論文 参考訳(メタデータ) (2026-04-16T15:30:10Z) - Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision [50.61441331643804]
強化学習(Reinforcement Learning、RLVR)は、広く適用可能で強力であるが、訓練中に緩やかな監督しか提供しない二進的な報酬に依存している。
蒸留は、一般的に外部の教師や高品質なデモンストレーションを使って得られる、密集したトークンレベルの監督を提供する。
自己蒸留ゼロ(SD-Zero)は,RLよりもかなり訓練効率が高く,外部教師や高品質な実演を必要としない手法である。
論文 参考訳(メタデータ) (2026-04-13T19:46:55Z) - Tool Verification for Test-Time Reinforcement Learning [70.09740926883818]
テスト時強化学習(TTRL)は、大規模推論モデルの自己進化のための有望なパラダイムとして登場した。
本稿では,T3RL(Tool-Verification for Test-Time Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2026-03-02T18:57:52Z) - Propose, Solve, Verify: Self-Play Through Formal Verification [75.44204610186587]
形式的検証が信頼性の高い正当性信号を提供する検証コード生成設定における自己再生について検討する。
本稿では,PSV(Propose, Solve, Verify)という,難易度の高い合成問題を生成可能なプロジェクタと,専門家の反復によって訓練された解決器を作成するための,形式的検証信号を用いた簡単なセルフプレイフレームワークを紹介する。
そこで本研究では,生成した質問数とトレーニングの繰り返し数によるパフォーマンスの尺度を示し,形式的検証と難易度を考慮した提案を,自己再生を成功させる上で不可欠な要素として同定する。
論文 参考訳(メタデータ) (2025-12-20T00:56:35Z) - Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations [103.16279860448874]
新たな二分探索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。
オープンエンド世代では、バイナリRARは幻覚率を39.3%減少させる。
短い形式の質問応答では、モデルは、パラメトリック知識の不足に直面した時に、戦略的に"I don't know"を出力して、控えめに学習する。
論文 参考訳(メタデータ) (2025-10-20T16:45:43Z) - Incentivizing LLMs to Self-Verify Their Answers [22.387551134333084]
本稿では,大規模言語モデルにインセンティブを与え,自己検証を行うフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
複数の数学的推論ベンチマークの実験は、我々のモデルがトレーニング後の性能を改善するだけでなく、効果的なテスト時間スケーリングを可能にすることを示している。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。