論文の概要: PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization
- arxiv url: http://arxiv.org/abs/2605.17877v1
- Date: Mon, 18 May 2026 05:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.894336
- Title: PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization
- Title(参考訳): PAIR:マルチターンエージェント最適化のためのプレフィックス対応内部リワードモデル
- Authors: Wonjoong Kim, Yeonjun In, Sangwu Park, Dongha Lee, Chanyoung Park,
- Abstract要約: グループ相対的政策最適化(GRPO)は、主要な選択肢として浮上しているが、緩やかな成果報酬への依存は、中間段階にわたる信用割当を著しく制限している。
そこで本研究では,凍結型隠れ状態プローブを用いた2段階モデルを提案する。
実験の結果, PAIRは汚染された軌道上では最も高いAUROCを達成でき, 予測コストは無視できることがわかった。
- 参考スコア(独自算出の注目度): 20.910779784518798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A significant hurdle for current LLMs is the execution of complex, multi-stage tasks. Group Relative Policy Optimization (GRPO) has been emerging as a leading choice, but its reliance on sparse outcome rewards severely limits credit assignment across intermediate steps. Existing remedies such as running full rollouts to assign step-level advantages, calling external LLM judges at each step, or computing intrinsic rewards that require ground-truth answers at every evaluation introduce significant costs or practical constraints. We hypothesize that internal correctness probing over LLM hidden states can be repurposed as a step-level reward signal, potentially addressing all of these limitations at once. However, existing probing research assumes clean inputs, and we first show that this assumption breaks down in multi-step settings: hidden-state probes degrade severely under prefix contamination tracking coherence with the (possibly corrupted) prefix rather than grounded correctness, while attention-based features remain robust to contamination but underperform on clean prefixes. Building on this complementary relationship, we propose the Prefix-Aware Internal Reward (PAIR), a two-stage model with a frozen hidden-state probe estimating belief-consistency and a lightweight attention-based head correcting it toward grounded correctness. Experimental results show that PAIR achieves the highest AUROC on contaminated trajectories while operating at negligible inference cost, enabling dense step-level reward signals for GRPO training without external model calls, ground-truth dependencies, or full-trajectory rollouts.
- Abstract(参考訳): 現在のLLMにとって重要なハードルは、複雑なマルチステージタスクの実行である。
グループ相対的政策最適化(GRPO)は、主要な選択肢として浮上しているが、緩やかな成果報酬への依存は、中間段階にわたる信用割当を著しく制限している。
ステップレベルのアドバンテージを割り当てるためにフルロールアウトを実行したり、各ステップで外部のLLM審査員を呼び出したり、あらゆる評価において根本からの回答を必要とする本質的な報酬を計算したりといった、既存の改善策は、大きなコストや実践的な制約をもたらす。
我々は、LSM隠れ状態に対する内部的正当性をステップレベルの報酬信号として再利用できると仮定し、これらの制限に一度に対処する可能性がある。
しかし、既存の調査では、クリーンな入力を前提としており、この仮定がマルチステップ設定で分解されることを最初に示している: 隠れ状態プローブは、クリーンなプレフィックスの汚染に対して頑健であるが、クリーンなプレフィックス上では、注意に基づく特徴は、汚染に対して頑健であるのに対して、クリーンなプレフィックスでは不十分である。
この相補関係を基礎として,隠れ状態プローブを用いた2段階モデルであるPrefix-Aware Internal Reward (PAIR)を提案する。
実験結果から, PAIRは汚染された軌道上では高いAUROCを実現し, 外部モデルコールや接地トラスト依存性, フルトラジェクティブロールアウトを伴わず, GRPOトレーニングのステップレベル報酬信号の高密度化を可能にした。
関連論文リスト
- PAC-Bayesian Reward-Certified Outcome Weighted Learning [0.0]
結果重み付け学習(OWL)による最適個別化処理規則(ITR)の推定は、しばしば真に潜伏したユーティリティに対してうるさいあるいは楽観的なプロキシである観察された報酬に依存する。
PAC-Bayesian Reward-Certified Outcome Weighted Learning (PROWL)を提案する。
一方的な不確実性証明が与えられた場合、PROWLは真の期待値に基づいて、保守的な報酬と厳密なポリシーに依存した下限を構築する。
論文 参考訳(メタデータ) (2026-04-02T12:08:56Z) - Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning [32.295907409325615]
強化学習による検索エンジンの推論のための大規模言語モデルの訓練は、信用代行問題によって妨げられる。
2つの相補的なアイデアに基づいて構築されたフレームワークであるSLATEを提案する。
7つのQAベンチマークの実験では、SLATEがスパース・リワードとプロセス・リワードのベースラインを一貫して上回っていることが確認された。
論文 参考訳(メタデータ) (2026-02-26T19:05:40Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Prune-Then-Plan: Step-Level Calibration for Stable Frontier Exploration in Embodied Question Answering [52.69447404069251]
大規模視覚言語モデル(VLM)は、オープン語彙推論のための強力なセマンティック先行情報を提供することにより、EQAエージェントの改良を行った。
ステップレベルキャリブレーションによる探索を安定化するフレームワークPrune-Then-Planを提案する。
論文 参考訳(メタデータ) (2025-11-24T22:50:50Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning [42.18368547352248]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための有望なパラダイムとして登場した。
欠陥陽性のロールアウトに対して,パラメータフリーの報酬ペナルティを示すFlawed-Aware Policy Optimization (FAPO)を提案する。
FAPOは広い領域で有効であり、トークン予算を増やすことなく、結果の正しさ、プロセスの信頼性、トレーニング安定性を向上させる。
論文 参考訳(メタデータ) (2025-10-26T05:49:38Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks [12.31210445905605]
ステップレベルの評価と結果の検証を統一するRLアプローチである原則プロセス・リワード(PPR)を導入する。
PPRは幅広いベンチマークで最先端のパフォーマンスを実現し、その顕著な堅牢性と一般化を実証している。
論文 参考訳(メタデータ) (2025-09-29T23:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。