論文の概要: Beyond Trajectory Rewards: Step-level Credit Assignment for Agentic Search via Graph Modeling
- arxiv url: http://arxiv.org/abs/2605.29697v1
- Date: Thu, 28 May 2026 09:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.164838
- Title: Beyond Trajectory Rewards: Step-level Credit Assignment for Agentic Search via Graph Modeling
- Title(参考訳): Beyond Trajectory Rewards: グラフモデリングによるエージェント検索のためのステップレベルのクレジットアサインメント
- Authors: Yuchen Liu, Yingjie Feng, Lixiong Qin, Jiasi Chen, Jianing Yu, Sheng Gao, Sheng Yang, Weiran Xu,
- Abstract要約: Agentic Searchでは、軌道レベルの成果報酬は個々のステップの行動貢献の定量化に失敗する。
GDCR(Graph-Distance Contribution Reward)は、解答ノードまでの距離で、新たに検索されたエンティティと新しいエンティティをスコアリングするステップレベルのプロセス報酬である。
- 参考スコア(独自算出の注目度): 26.540951598344787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Agentic Search, trajectory-level outcome rewards fail to quantify the behavioral contributions of individual steps, while existing step-level reward methods typically rely on costly tree sampling. We view world knowledge as a latent world graph and each IS task as search within a latent task graph, where effective steps should make graph progress toward the answer node. Based on this prior, we propose Graph-Distance Contribution Reward (GDCR), a step-level process reward that scores newly-retrieved and newly-cited entities by their distance to the answer node in a training-time Entity-Relation (ER) graph. We further propose Step Advantage Policy Optimization (SAPO), which converts GDCR into step-level advantages and combines them with trajectory-level outcome advantages. Experiments on four challenging benchmarks validate the effectiveness of our method.
- Abstract(参考訳): Agentic Searchでは、軌道レベルの報奨は個々のステップの行動的貢献を定量化できないが、既存のステップレベルの報奨方法は一般的にコストのかかる木のサンプリングに依存している。
我々は、世界知識を潜時世界グラフとみなし、各ISタスクを潜時タスクグラフ内の探索とみなす。
そこで,本稿では,段階的なプロセス報酬であるGraph-Distance Contribution Reward (GDCR)を提案する。
さらに,ステップアドバンテージポリシ最適化(SAPO)を提案し,GDCRをステップレベルのアドバンテージに変換し,軌道レベルの結果のアドバンテージと組み合わせる。
4つの挑戦的ベンチマーク実験により,本手法の有効性が検証された。
関連論文リスト
- Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning [30.228760269449072]
グループベース強化学習(RL)法は,大規模言語モデル(LLM)の性能向上に成功している。
グラフベースのグループポリシー最適化(GraphGPO)を提案し、すべてのロールアウト軌跡を統一された状態遷移グラフに集約する。
グラフにエンコードされたグローバル情報を用いて、各状態からタスク目標までの距離を推定する。
最後に、GraphGPOは、タスク目標までの距離をどの程度短縮するかに基づいて、グラフベースの利点を推定することで、各エッジにクレジットを割り当てる。
論文 参考訳(メタデータ) (2026-05-26T08:23:34Z) - UniER: A Unified Benchmark for Item-level and Path-level Exercise Recommendation [53.62147575168325]
We present a Unified Benchmark for Exercise Recommendation (UniER)
UniERは、ILERとPLERを統合する包括的な評価フレームワークである。
本研究は, pleRの系統的優位性を明らかにするとともに, ILERのフラグメントドレコメンデーションの教育的失敗を明らかにするものである。
論文 参考訳(メタデータ) (2026-05-16T02:07:58Z) - STAR: Semantic-Tuned and Tail-Adaptive Retriever for Graph-Augmented Generation [69.66045538889777]
本稿では,GraphRAGのためのセマンティックチューニングとテール適応型レトリバーSTARを提案する。
STARは一貫してベースラインを上回り、平均検索性能は1.8%向上した。
論文 参考訳(メタデータ) (2026-04-11T10:16:51Z) - STEP: Success-Rate-Aware Trajectory-Efficient Policy Optimization [23.48518286261969]
軌道レベルの最適化は、各軌道を単一のトレーニングサンプルとして扱う。
このアプローチは非効率であり、誤解を招く学習信号が得られる。
提案するSTEP(Success-rate-aware Trajectory-Efficient Policy Optimization)は,タスクごとの成功率に基づいてサンプリングを動的に割り当てるフレームワークである。
論文 参考訳(メタデータ) (2025-11-17T07:43:15Z) - Incorporating Spatial Information into Goal-Conditioned Hierarchical Reinforcement Learning via Graph Representations [37.10671332775445]
目標条件付き強化学習(GCHRL)とグラフの統合は近年注目されている。
既存のアプローチは通常、これらのグラフを構築するためにドメイン固有の知識に依存します。
本稿では,未確認状態を評価するためのグラフエンコーダデコーダの開発による解を提案する。
論文 参考訳(メタデータ) (2025-11-14T00:58:39Z) - Reasoning by Exploration: A Unified Approach to Retrieval and Generation over Graphs [39.425801384830415]
構造化グラフに対する推論は、大規模言語モデルにとって依然として根本的な課題である。
グラフ探索のプロセスとしてグラフ上の推論をフレーミングすることによって検索と生成を統一する新しい手法であるReasoning by Exploration (RoE)を提案する。
RoEは、ベースラインよりも大幅に全体的な改善を実現し、また、目に見えないグラフに効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-08T19:29:19Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - GRAIL:Learning to Interact with Large Knowledge Graphs for Retrieval Augmented Reasoning [13.481673780508215]
GRAILは、検索強化推論のための大規模グラフと相互作用するように設計されたフレームワークである。
GRAILは知識グラフ問合せデータセットの平均精度を21.01%改善し、F1改善を22.43%改善する。
論文 参考訳(メタデータ) (2025-08-07T15:34:41Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Optimal Propagation for Graph Neural Networks [51.08426265813481]
最適グラフ構造を学習するための二段階最適化手法を提案する。
また、時間的複雑さをさらに軽減するために、低ランク近似モデルについても検討する。
論文 参考訳(メタデータ) (2022-05-06T03:37:00Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。