論文の概要: Aletheia: What Makes RLVR For Code Verifiers Tick?
- arxiv url: http://arxiv.org/abs/2601.12186v1
- Date: Sat, 17 Jan 2026 22:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.501176
- Title: Aletheia: What Makes RLVR For Code Verifiers Tick?
- Title(参考訳): Aletheia: コード検証ツールにRLVRを悪用する理由
- Authors: Vatsal Venkatkrishna, Indraneil Paul, Iryna Gurevych,
- Abstract要約: Reinforcement Learning from Verifiable Rewards (RLVR)を通じてトレーニングされた検証は、Large Language Model (LLM)ポストトレーニングパイプラインの顕著なフィクスチャである。
コード検証は、実行フィードバックを得るのが難しいシナリオにおいて、モデル出力を判断する上で価値があります。
本稿では,RLVRを用いた検証学習手法の構成要素を検証し,その有効性を検証した。
- 参考スコア(独自算出の注目度): 51.371034079170435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-domain thinking verifiers trained via Reinforcement Learning from Verifiable Rewards (RLVR) are a prominent fixture of the Large Language Model (LLM) post-training pipeline, owing to their ability to robustly rate and rerank model outputs. However, the adoption of such verifiers towards code generation has been comparatively sparse, with execution feedback constituting the dominant signal. Nonetheless, code verifiers remain valuable toward judging model outputs in scenarios where execution feedback is hard to obtain and are a potentially powerful addition to the code generation post-training toolbox. To this end, we create and open-source Aletheia, a controlled testbed that enables execution-grounded evaluation of code verifiers' robustness across disparate policy models and covariate shifts. We examine components of the RLVR-based verifier training recipe widely credited for its success: (1) intermediate thinking traces, (2) learning from negative samples, and (3) on-policy training. While experiments show the optimality of RLVR, we uncover important opportunities to simplify the recipe. Particularly, despite code verification exhibiting positive training- and inference-time scaling, on-policy learning stands out as the key component at small verifier sizes, and thinking-based training emerges as the most important component at larger scales.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR) を通じてトレーニングされたマルチドメイン思考検証器は、モデルの出力を堅牢に評価し、再帰する能力のため、Large Language Model (LLM) のトレーニング後のパイプラインの顕著なフィクスチャである。
しかし、コード生成に対する検証器の採用は比較的不十分であり、実行フィードバックが支配的な信号を構成する。
それでも、実行フィードバックの取得が困難で、トレーニング後のツールボックスに潜在的に強力な追加機能を持つシナリオでは、モデル出力を判断する上で、コード検証は依然として有用である。
この目的のために我々は,異なるポリシーモデルと共変量シフトをまたいで,コード検証者の堅牢性の実行基盤評価を可能にする,制御されたテストベッドであるAletheiaをオープンソースとして公開した。
本稿では,RLVRを用いた検証学習の成果として,(1)中間的思考の痕跡,(2)ネガティブなサンプルからの学習,(3)政治上のトレーニングなどを挙げる。
実験はRLVRの最適性を示すが、レシピを単純化する重要な機会を明らかにする。
特に、ポジティブなトレーニングと推論タイムのスケーリングを示すコード検証にもかかわらず、オンライン学習は小さな検証対象サイズにおいて重要なコンポーネントとして際立っており、大規模では思考ベースのトレーニングが最も重要なコンポーネントとして現れます。
関連論文リスト
- ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。
ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。
我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文 参考訳(メタデータ) (2025-06-11T17:10:36Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning [29.36492073947041]
Tangoは、LLMジェネレータと検証器の両方を同時にトレーニングするためにReinforcement Learningを使用する、新しいフレームワークである。
Tangoの中心的な革新は、生成プロセスレベルのLCM検証であり、RLを介してトレーニングされ、ジェネレータと共進化する。
実験により,Tangoの2つのコンポーネントが7B/8Bスケールモデルで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2025-05-21T02:43:15Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。