論文の概要: CAPF: Guiding Search-Agent Rollouts with Credit-Attenuated Privileged Feedback
- arxiv url: http://arxiv.org/abs/2606.01830v1
- Date: Mon, 01 Jun 2026 07:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.574635
- Title: CAPF: Guiding Search-Agent Rollouts with Credit-Attenuated Privileged Feedback
- Title(参考訳): CAPF:Credit-attenuated Privileged Feedbackによる検索エージェントロールアウトの誘導
- Authors: Bin Chen, Xinye Liao, Yiming Liu, Xin Liao, Chonghan Liu,
- Abstract要約: 我々は、難しい問題に対する学習を改善するには、トレーニング中に追加のガイダンスが必要であると論じる。
CAPF(textbfCredit-Attenuated Privileged Feedback)と呼ばれる訓練時間機構を提案する。
CAPFは、ゼロ・リワードの試みを前向きに修正し、フィードバックコールと初期アクションのクレジットを減らし、このコールなしでデプロイメントを適応させる。
- 参考スコア(独自算出の注目度): 24.565199382489453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent LLM search agents use reinforcement learning with verifiable rewards (RLVR) to learn search-augmented reasoning from outcome rewards. On hard problems, these agents rarely sample end-to-end successful rollouts, leaving outcome-only RLVR with few positive-reward trajectories. We argue that improving learning on such problems requires additional guidance during training, and RLVR already contains verifier-side information that can provide it. This information can identify errors or omissions in the agent's submitted answer and guide revision within the rollout. We propose a training-time mechanism called \textbf{Credit-Attenuated Privileged Feedback} (CAPF), which makes this verifier-side information available through a Privileged Feedback call during training. CAPF lets the policy revise zero-reward attempts into positive-reward repair trajectories and attenuates credit for the feedback call and earlier actions to accommodate deployment without this call. Empirical research demonstrates that CAPF improves Qwen3-4B's average exact-match score from 44.7% under outcome-only RLVR to 48.5% on seven open-domain QA benchmarks.
- Abstract(参考訳): 近年のLLM検索エージェントは、検証可能な報酬(RLVR)を用いた強化学習を用いて、検索結果の報酬から探索強化推論を学習している。
難しい問題では、これらのエージェントがエンド・ツー・エンドで成功したロールアウトをサンプリングすることは滅多になく、結果のみのRLVRにプラス逆軌道はほとんど残っていない。
我々は、そのような問題に対する学習を改善するには、トレーニング中に追加のガイダンスが必要であると論じ、RLVRには、それを提供可能な検証側情報が含まれている。
この情報は、エージェントが提出した回答のエラーや省略を識別し、ロールアウト内でガイドリビジョンを行うことができる。
本稿では,訓練中のPrivleged Feedbackコールを通じて,この検証側情報を利用可能にするための訓練時間機構である「textbf{Credit-Attenuated Privileged Feedback} (CAPF)」を提案する。
CAPFは、ゼロ・リワードの試みを前向きに修正し、フィードバックコールと初期アクションのクレジットを減らし、このコールなしでデプロイできる。
実験的な研究によると、CAPFはQwen3-4Bの平均的正確なマッチスコアを、結果のみのRLVRで44.7%から、7つのオープンドメインのQAベンチマークで48.5%に改善している。
関連論文リスト
- Soft-SVeRL: Self-Verified Reinforcement Learning with Soft Rewards [24.040621624203823]
Reinforcement Learning from Verifiable Rewards (RLVR)は、数学やコードなどの分野における言語モデルを改善している。
本稿では,分解された学習信号から強化学習を行うフレームワークであるSoft-RLVRを紹介する。
自己検証は、過度に許容される自己判断からインフレーションを報いる傾向があり、この崩壊を防ぐために明確な安定化が必要であることを示す。
論文 参考訳(メタデータ) (2026-05-27T14:50:53Z) - Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs [59.62441340813425]
我々は、強化学習がパラメトリック知識の直接的リコールを改善するかどうかを検討する。
3つのモデルファミリと複数の事実QAベンチマークで、RLの平均相対利得は27%である。
機械的には、RLは主に新しい事実を得るのではなく、既存の知識の確率質量を再分配する。
論文 参考訳(メタデータ) (2026-05-08T02:40:12Z) - On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents [33.32413617717957]
アクティブな推論では、大きな言語モデル(LLM)エージェントは情報自己ロックに悩まされることが多い。
アクティブ推論は,行動選択(AS)と信念追跡(BT)の2つのコア機能に分解する。
我々は,ASとBTの不足が,RLトレーニング中の情報探索を制限することを示す。
そこで本稿では, 容易かつ効果的に指向性批判を注入することで, 学習信号を再配置する手法を提案する。
論文 参考訳(メタデータ) (2026-03-12T16:14:14Z) - Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。
検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。
我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。
SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文 参考訳(メタデータ) (2026-01-28T17:45:12Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Auditable-choice reframing unlocks RL-based verification for open-ended tasks [23.12421867559344]
Verible Multiple-Choice Reformulation (VMR)は、オープンエンドデータを検証可能な複数選択形式に再構成する新しいトレーニング戦略である。
8つのオープンエンドベンチマークで、VMRベースのトレーニングはベースラインで平均5.99ポイント向上します。
論文 参考訳(メタデータ) (2025-11-04T10:45:52Z) - Verifiable Accuracy and Abstention Rewards in Curriculum RL to Alleviate Lost-in-Conversation [6.444818462799464]
大規模言語モデルはシングルターン命令に強い能力を示すが、LiC(Lost-in-Conversation)に苦しむ
Reinforcement Learning with Verifiable Rewards (RLVR) の現在の進歩に触発されて, 検証精度と回避Rewards (RLAAR) を用いたカリキュラム強化学習を提案する。
本手法では,信頼性を向上しつつ,対話の難易度を漸進的に向上させ,トレーニングの安定化を図る。
論文 参考訳(メタデータ) (2025-10-21T15:32:26Z) - Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。