論文の概要: Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents
- arxiv url: http://arxiv.org/abs/2606.05263v1
- Date: Wed, 03 Jun 2026 16:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.295576
- Title: Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents
- Title(参考訳): 長期言語エージェントの検証強化学習のための政策規定型対実クレジット
- Authors: Renwei Meng,
- Abstract要約: 検証可能な報酬による強化学習は推論とツールの使用を改善するが、長期の言語エージェントは依然として、証拠連鎖と信念の漂流を学習する。
本稿では, 厳密な検証可能な報酬, 介入正当性ゲーティング, および政策条件付き対実的貢献(PCCC)推定器を用いた制約付きポリシー勾配アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards improves reasoning and tool use, yet long-horizon language agents still learn unsupported evidence chains, belief drift, and shortcut actions that satisfy terminal checks. Existing process rewards are mostly correlational: they reward retrieval-, reflection-, or verification-like steps without estimating whether the step contributes to final verified success under a specified intervention. We propose CVT-RL, a constrained policy-gradient algorithm with dense verifiable rewards, intervention-validity gating, and a policy-conditioned counterfactual contribution (PCCC) estimator. Deletion, semantic substitution, evidence substitution, and tool-output perturbation define separate controlled interventions; continuations are sampled from a frozen reference policy, and a selection-adjusted doubly robust estimator augments the advantage. Belief control uses only prefix-observable labels, while an augmented Lagrangian constrains unsupported claims, skipped verification, tool tampering, and unsafe calls. On long-context QA, ALFWorld, ScienceWorld, and web/tool tasks, CVT-RL improves average task success from 71.8% for compute-matched non-causal RL and 75.4% for an information-matched counterfactual-process baseline to 78.9%, improves evidence F1 from 78.9 to 82.8 over the information-matched baseline, and reduces measured hacking from 7.2% to 3.9%. Independent human audit estimates 4.6% hacking for CVT-RL versus 8.1% for the information-matched baseline, and adaptive detector-evasion attacks raise hacking only to 7.1%. Stratified bootstrap and mixed-effects tests give p<0.01 after Holm correction for all primary metrics. Carefully scoped counterfactual credit, paired with validity gating, diagnostics, and verifiable constraints, provides a reproducible route toward more reliable long-horizon RL for language agents.
- Abstract(参考訳): 検証可能な報酬による強化学習は推論とツールの使用を改善するが、長期的な言語エージェントは依然として、証拠連鎖、信念の漂流、ターミナルチェックを満たすショートカットアクションを学習する。
既存のプロセス報酬は、主に相関関係にある: 彼らは、特定の介入の下で最終的な成功に寄与するかどうかを見積もることなく、検索、リフレクション、または検証のようなステップを報いる。
CVT-RL, 厳密な検証可能な報酬, 介入正当性ゲーティング, および政策条件付き反事実貢献(PCCC)推定器を提案する。
削除、セマンティック置換、エビデンス置換、ツールアウトプット摂動は別個の制御された介入を定義し、継続は凍結された参照ポリシーからサンプリングされ、選択調整された二重頑健な推定器は利点を増大させる。
信条コントロールはプレフィックスオブザーバなラベルのみを使用し、拡張されたラグランジアン制約は、クレーム、スキップされた検証、ツールの改ざん、安全でない呼び出しを禁止している。
長文QA、ALFWorld、ScienceWorld、web/toolタスクでは、CVT-RLが平均タスク成功率71.8%、非因果RLが75.4%、情報マッチングの対実プロセスベースラインが78.9%、情報マッチングベースラインが78.9から82.8に改善され、測定されたハッキングが7.2%から3.9%に削減された。
独立した人間監査では、CVT-RLのハッキングは4.6%、情報マッチングベースラインのハッキングは8.1%、アダプティブ・ディテクター・回避攻撃は7.1%と見積もられている。
階層化ブートストラップと混合エフェクトテストは、すべての主要な指標に対してホルム補正後のp<0.01を与える。
有効性ゲーティング、診断、検証可能な制約と組み合わせた、慎重にスコープ化された対物クレジットは、言語エージェントのより信頼性の高いロングホライゾンRLへの再現可能なルートを提供する。
関連論文リスト
- TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents [54.08846865906602]
ツール強化マルチモーダルサーチエージェントにおいて,クレジットミス割り当てをGRPOの系統的障害モードとして特徴付ける。
本稿では,情報取得ツールのパラメータ決定性を利用したツール・アウェア・ポリシー・オプティマイズ(TAPO)を提案する。
論文 参考訳(メタデータ) (2026-06-04T07:15:43Z) - Automating Formal Verification with Reinforcement Learning and Recursive Inference [0.0]
我々はダフニーで検証可能な報酬(RLVR)と検証者誘導推論時間探索を用いてオープンソースモデルを訓練する。
固定ベースモデルでは、証明修正器を備えた完全な足場は、直接修理中の初期VeriCodingパイロットセットのパスレートを46.2%から69.2%に改善する。
Rust $texttcurve25519-dalek$検証プロジェクトから派生した,レポジトリスケールのLeanベンチマークであるDalek-Benchについても紹介します。
論文 参考訳(メタデータ) (2026-05-29T06:59:28Z) - VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs [59.62441340813425]
我々は、強化学習がパラメトリック知識の直接的リコールを改善するかどうかを検討する。
3つのモデルファミリと複数の事実QAベンチマークで、RLの平均相対利得は27%である。
機械的には、RLは主に新しい事実を得るのではなく、既存の知識の確率質量を再分配する。
論文 参考訳(メタデータ) (2026-05-08T02:40:12Z) - Mitigating False Positives in Static Memory Safety Analysis of Rust Programs via Reinforcement Learning [9.7161418437872]
Rustプログラムのメモリ安全性を確保するには静的解析ツールが不可欠だ。
RudraやMirCheckerといった既存のツールは、偽陽性率が高い。
本稿では,突発的な警告を自動的に分類・抑制するための新しい強化学習(RL)アプローチを提案する。
論文 参考訳(メタデータ) (2026-05-05T17:21:40Z) - Differentiable Conformal Training for LLM Reasoning Factuality [6.534904345823168]
大きな言語モデル(LLM)は、しばしば幻覚し、重要なアプリケーションにおける信頼性を制限します。
最近の研究は、Conformal Predictionを拡張して、リスクのあるクレームをフィルタリングし、幻覚率がユーザ指定レベル以下であることを保証する。
そこで本研究では,従来のアルゴリズムの保証を確実に回復しつつ,改良されたスコアラーの学習を可能にする,完全微分可能コヒーレント・ファクタリティ(DCF)を導入する。
論文 参考訳(メタデータ) (2026-04-22T01:35:31Z) - Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis [0.0]
ソフトウェア脆弱性分析のための言語横断的な脆弱性ライフサイクルフレームワークを構築します。
89.84-92.02%の言語内検出精度,74.43-80.12%のゼロショット言語F1。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
論文 参考訳(メタデータ) (2026-04-12T20:22:23Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。