論文の概要: RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents
- arxiv url: http://arxiv.org/abs/2605.26352v1
- Date: Mon, 25 May 2026 21:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.481076
- Title: RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents
- Title(参考訳): RICE-PO:retrieval InteractionsをReasoning AgentsのCredit Signalに変換する
- Authors: Mingchen Li, Hansi Zeng, Zhuo Qian, Jiatan Huang, Hamed Zamani, Hong Yu,
- Abstract要約: 本稿では,検索インタラクションを局所的な学習信号に変換する,批判のないポリシー最適化フレームワークであるRICE-POを提案する。
BRIGHTとBEIRでは、RICE-POはプロンプトベースのエージェントとグループベースのRLベースラインを同じレシーバー設定で一貫して上回る。
- 参考スコア(独自算出の注目度): 37.33108522642245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval is increasingly moving from one-shot matching toward interactive reasoning, where language agents iteratively inspect evidence, reformulate queries, and search again. Training such agents raises a credit-assignment challenge: executable actions such as queries or summaries can be directly evaluated by the retriever, while latent reasoning steps are not directly observable and only affect future executable actions. This asymmetry makes outcome-level reward assignment unreliable, as the same final reward may credit reasoning steps that did not actually shape retrieval success. We propose RICE-PO, a critic-free policy optimization framework that converts retrieval interactions into localized learning signals. RICE-PO selects high-uncertainty executable actions as anchors, evaluates local counterfactual branches using retrieval metrics, and propagates credit to latent reasoning steps only when reasoning-to-action influence is strong and future residual effects are stable. On BRIGHT and BEIR, RICE-PO consistently outperforms prompt-based agents and group-based RL baselines under the same retriever setting. These results show that the structure of agent-environment interaction itself can provide useful supervision for training reasoning-based retrieval agents.
- Abstract(参考訳): Retrievalは、ワンショットマッチングからインタラクティブな推論へと、ますます移行しつつある。
クエリや要約のような実行可能なアクションは、レトリバーによって直接評価されるが、遅延推論ステップは直接観察可能ではなく、将来の実行可能なアクションにのみ影響する。
この非対称性は、結果レベルの報酬の割り当てを信頼できないものにする。
本稿では,検索インタラクションを局所的な学習信号に変換する,批判のないポリシー最適化フレームワークであるRICE-POを提案する。
RICE-POは、アンカーとして高不確実性実行動作を選択し、検索指標を用いて局所的反事実分岐を評価し、推論から行動への影響が強く、将来の残留効果が安定している場合にのみ、潜在推論ステップに信用を伝達する。
BRIGHTとBEIRでは、RICE-POはプロンプトベースのエージェントとグループベースのRLベースラインを同じレシーバー設定で一貫して上回る。
これらの結果から,エージェント環境相互作用の構造自体が,推論に基づく検索エージェントの訓練に有用であることが示唆された。
関連論文リスト
- Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents [6.89645931986174]
本稿では,ルーリック誘導型行動選択フレームワークCo-ReActを紹介する。
各決定ステップにおいて、Co-ReActはエージェントのコンテキストにルーブリックを注入し、次のReason-or-Act決定を導く。
我々は、GRPOで専用のルーリック発電機を訓練し、このガイダンスを信頼性の高いものにする。
論文 参考訳(メタデータ) (2026-05-22T12:59:16Z) - RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards [76.17893114021757]
長い形式のレポートを計画し、調査し、エビデンスを評価し、合成する深層研究システムには、根本的な答えがなく、多くのツール強化された決定にまたがる。
本研究では,ルーブリックは最終回答評価者だけでなく,ポリシーの実行,判断フィードバック,エージェントメモリを構成する共有インターフェースとして機能すべきである,と論じる。
我々は、段階的な政策分解とリフレクションに基づくメタ政治進化を組み合わせたルーリック誘導強化学習フレームワークEMを導入する。
論文 参考訳(メタデータ) (2026-05-11T17:40:38Z) - Verifiable Process Rewards for Agentic Reasoning [21.195739597726142]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を向上させる。
既存のアプローチのほとんどは、少ない結果レベルのフィードバックに依存しています。
本稿では,これらのオーラクルを強化学習のための高密度なターンレベルの監視に変換するフレームワークであるVerifiable Process Rewards (VPR)を提案する。
論文 参考訳(メタデータ) (2026-05-11T10:30:53Z) - When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making [68.12864562049957]
身体ロボットシステムは、高レベルの推論をサポートするために、大規模言語モデル(LLM)ベースのエージェントにますます依存している。
エージェントはいつ、いつ、いつ行動すべきか?
本稿では,エンボディエージェントのリソース・アウェア・オーケストレーションのための階層的なフレームワークであるRARRL(Resource-Aware Reasoning via Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2026-03-17T15:38:50Z) - Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents [24.080021799509847]
textscEvalAct (Evaluate-as-Action) は暗黙的な検索品質評価を明示的なアクションに変換する。
textscEvalActは、マルチホップタスクにおいて最も高い平均精度を達成する。
論文 参考訳(メタデータ) (2026-03-10T05:22:40Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models [29.703793991791674]
既存のRAG指向強化学習法は、文書の忠実さを評価するのにしばしば失敗する外部報酬に依存している。
コントラッシブ・ライリフッド・リワード(CLR)を中心とした新たな「内外的」ハイブリッド報酬枠組を提案する。
CLRは、エビデンスをサポートしないプロンプトで条件付けられたレスポンス間のログライクなギャップを直接最適化する。
論文 参考訳(メタデータ) (2026-02-02T12:21:59Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。