Fugu-MT 論文翻訳(概要): Aletheia: What Makes RLVR For Code Verifiers Tick?

論文の概要: Aletheia: What Makes RLVR For Code Verifiers Tick?

arxiv url: http://arxiv.org/abs/2601.12186v1
Date: Sat, 17 Jan 2026 22:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.501176
Title: Aletheia: What Makes RLVR For Code Verifiers Tick?
Title（参考訳）: Aletheia: コード検証ツールにRLVRを悪用する理由
Authors: Vatsal Venkatkrishna, Indraneil Paul, Iryna Gurevych,
Abstract要約: Reinforcement Learning from Verifiable Rewards (RLVR)を通じてトレーニングされた検証は、Large Language Model (LLM)ポストトレーニングパイプラインの顕著なフィクスチャである。コード検証は、実行フィードバックを得るのが難しいシナリオにおいて、モデル出力を判断する上で価値があります。本稿では,RLVRを用いた検証学習手法の構成要素を検証し,その有効性を検証した。
参考スコア（独自算出の注目度）: 51.371034079170435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-domain thinking verifiers trained via Reinforcement Learning from Verifiable Rewards (RLVR) are a prominent fixture of the Large Language Model (LLM) post-training pipeline, owing to their ability to robustly rate and rerank model outputs. However, the adoption of such verifiers towards code generation has been comparatively sparse, with execution feedback constituting the dominant signal. Nonetheless, code verifiers remain valuable toward judging model outputs in scenarios where execution feedback is hard to obtain and are a potentially powerful addition to the code generation post-training toolbox. To this end, we create and open-source Aletheia, a controlled testbed that enables execution-grounded evaluation of code verifiers' robustness across disparate policy models and covariate shifts. We examine components of the RLVR-based verifier training recipe widely credited for its success: (1) intermediate thinking traces, (2) learning from negative samples, and (3) on-policy training. While experiments show the optimality of RLVR, we uncover important opportunities to simplify the recipe. Particularly, despite code verification exhibiting positive training- and inference-time scaling, on-policy learning stands out as the key component at small verifier sizes, and thinking-based training emerges as the most important component at larger scales.
Abstract（参考訳）: Reinforcement Learning from Verifiable Rewards (RLVR) を通じてトレーニングされたマルチドメイン思考検証器は、モデルの出力を堅牢に評価し、再帰する能力のため、Large Language Model (LLM) のトレーニング後のパイプラインの顕著なフィクスチャである。しかし、コード生成に対する検証器の採用は比較的不十分であり、実行フィードバックが支配的な信号を構成する。それでも、実行フィードバックの取得が困難で、トレーニング後のツールボックスに潜在的に強力な追加機能を持つシナリオでは、モデル出力を判断する上で、コード検証は依然として有用である。この目的のために我々は,異なるポリシーモデルと共変量シフトをまたいで,コード検証者の堅牢性の実行基盤評価を可能にする,制御されたテストベッドであるAletheiaをオープンソースとして公開した。本稿では,RLVRを用いた検証学習の成果として,(1)中間的思考の痕跡,(2)ネガティブなサンプルからの学習,(3)政治上のトレーニングなどを挙げる。実験はRLVRの最適性を示すが、レシピを単純化する重要な機会を明らかにする。特に、ポジティブなトレーニングと推論タイムのスケーリングを示すコード検証にもかかわらず、オンライン学習は小さな検証対象サイズにおいて重要なコンポーネントとして際立っており、大規模では思考ベースのトレーニングが最も重要なコンポーネントとして現れます。

関連論文リスト

CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。 SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文参考訳（メタデータ） (2026-01-28T17:45:12Z)
From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。このようにして、RLVRRは報酬を2つの次元に分解する。
論文参考訳（メタデータ） (2026-01-26T14:39:58Z)
ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文参考訳（メタデータ） (2025-09-22T13:00:35Z)
ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文参考訳（メタデータ） (2025-06-13T03:41:04Z)
VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning [29.36492073947041]
Tangoは、LLMジェネレータと検証器の両方を同時にトレーニングするためにReinforcement Learningを使用する、新しいフレームワークである。 Tangoの中心的な革新は、生成プロセスレベルのLCM検証であり、RLを介してトレーニングされ、ジェネレータと共進化する。実験により,Tangoの2つのコンポーネントが7B/8Bスケールモデルで最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2025-05-21T02:43:15Z)
Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文参考訳（メタデータ） (2024-10-23T07:22:33Z)
CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。 CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文参考訳（メタデータ） (2022-05-02T14:42:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。