論文の概要: Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.26684v2
- Date: Mon, 01 Jun 2026 06:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.525679
- Title: Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning
- Title(参考訳): トラジェクトリ・レベル属性を超えて:エージェント強化学習のためのグラフベースのクレジットアサインメント
- Authors: Xin Cheng, Shuo He, Lang Feng, HaiYang Xu, Ming Yan, Lei Feng, Bo An,
- Abstract要約: グループベース強化学習(RL)法は,大規模言語モデル(LLM)の性能向上に成功している。
グラフベースのグループポリシー最適化(GraphGPO)を提案し、すべてのロールアウト軌跡を統一された状態遷移グラフに集約する。
グラフにエンコードされたグローバル情報を用いて、各状態からタスク目標までの距離を推定する。
最後に、GraphGPOは、タスク目標までの距離をどの程度短縮するかに基づいて、グラフベースの利点を推定することで、各エッジにクレジットを割り当てる。
- 参考スコア(独自算出の注目度): 30.228760269449072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group-based reinforcement learning (RL) methods have achieved remarkable success in improving the performance of large language models (LLMs) and have been rapidly extended to agentic tasks. However, their credit assignment relies heavily on coarse-grained trajectory-level attribution according to final outcomes, making it difficult to capture the contribution of individual steps, such as valuable steps obscured within failed trajectories. To uncover latent information and enable more faithful step-level credit assignment, we propose Graph-based Group Policy Optimization (GraphGPO), which first aggregates all rollout trajectories into a unified state-transition graph and then estimates the distance from each state to the task goal using the global information encoded in the graph. Finally, GraphGPO assigns credit to each edge by estimating a graph-based advantage, based on how much the transition reduces the distance to the task goal. In this way, GraphGPO significantly improves training efficiency and achieves state-of-the-art performance across a range of challenging benchmarks.
- Abstract(参考訳): グループベース強化学習(RL)法は,大規模言語モデル(LLM)の性能向上に成功し,エージェントタスクに急速に拡張されている。
しかし、それらのクレジットの割り当ては、最終的な結果に応じて粗粒度のトラジェクトリレベルの属性に大きく依存しているため、失敗したトラジェクトリの中に隠された貴重なステップなど、個々のステップの寄与を捉えることは困難である。
遅延情報を明らかにし,より忠実なステップレベルのクレジット割り当てを可能にするために,まずすべてのロールアウト軌跡を統一された状態遷移グラフに集約し,そのグラフに符号化されたグローバル情報を用いて各状態からタスク目標までの距離を推定するグラフベースグループポリシー最適化(GraphGPO)を提案する。
最後に、GraphGPOは、タスク目標までの距離をどの程度短縮するかに基づいて、グラフベースの利点を推定することで、各エッジにクレジットを割り当てる。
このように、GraphGPOはトレーニング効率を大幅に改善し、さまざまな挑戦的なベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Graph-GRPO: Training Graph Flow Models with Reinforcement Learning [14.937302684130257]
グラフフローモデル(GFM)を学習するためのオンライン強化学習フレームワークであるGraph-GRPOを提案する。
わずか50ステップで95.0%と97.5%のValid-Unique-Noveltyスコアが得られた。
論文 参考訳(メタデータ) (2026-03-11T04:20:45Z) - Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization [7.961090665261694]
グループ相対政策最適化を統合した新しいトポロジ最適化フレームワークであるGraph-GRPOを提案する。
サンプル群全体にわたる報酬の正規化により,タスク難易度の違いによるノイズを効果的に軽減し,きめ細かなクレジット割り当てを可能にする。
論文 参考訳(メタデータ) (2026-03-03T07:45:40Z) - SketchVL: Policy Optimization via Fine-Grained Credit Assignment for Chart Understanding and More [15.102512433806751]
我々はFinePOを最適化した新しいMLLMであるSketchVLを紹介した。
トレーニング中、FinePOアルゴリズムは細粒度プロセスリワードモデル(FinePRM)を利用して、各描画動作を軌道内でスコアし、各ステップのクレジットを正確に割り当てる。
実験の結果、SketchVLはFinPRMとステップレベルの動作を一致させることを学び、ベースモデルよりも平均7.23%の性能向上を達成した。
論文 参考訳(メタデータ) (2026-01-09T10:13:01Z) - Incorporating Spatial Information into Goal-Conditioned Hierarchical Reinforcement Learning via Graph Representations [37.10671332775445]
目標条件付き強化学習(GCHRL)とグラフの統合は近年注目されている。
既存のアプローチは通常、これらのグラフを構築するためにドメイン固有の知識に依存します。
本稿では,未確認状態を評価するためのグラフエンコーダデコーダの開発による解を提案する。
論文 参考訳(メタデータ) (2025-11-14T00:58:39Z) - AutoGraph-R1: End-to-End Reinforcement Learning for Knowledge Graph Construction [60.51319139563509]
強化学習(RL)を用いたタスクパフォーマンスのKG構築を直接最適化する最初のフレームワークであるAutoGraph-R1を紹介する。
我々は2つの新しいタスク対応報酬関数を設計し、1つは知識担体としてのグラフと、もう1つは知識指標としてのグラフを設計する。
私たちの研究は、構築とアプリケーションの間のループを閉じることが可能であることを示している。
論文 参考訳(メタデータ) (2025-10-17T06:03:36Z) - GRAIL:Learning to Interact with Large Knowledge Graphs for Retrieval Augmented Reasoning [13.481673780508215]
GRAILは、検索強化推論のための大規模グラフと相互作用するように設計されたフレームワークである。
GRAILは知識グラフ問合せデータセットの平均精度を21.01%改善し、F1改善を22.43%改善する。
論文 参考訳(メタデータ) (2025-08-07T15:34:41Z) - G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning [58.73279333365234]
合成グラフ理論タスクにおける強化学習(RL)はグラフ推論能力を著しく拡張することができる。
RL on ErdosでG1はグラフ推論の大幅な改善を実現し、微調整された3BモデルはQwen2.5-72B-Instruct(24倍)よりも優れています。
我々の研究は、グラフ理論上のRLでLLMを微調整することで、強力なグラフ推論器を構築するための効率的でスケーラブルな経路を提供する。
論文 参考訳(メタデータ) (2025-05-24T04:33:41Z) - FedGraph: A Research Library and Benchmark for Federated Graph Learning [57.769105634569314]
フェデレーショングラフ学習は、重要な実践上の課題を持つ新興分野である。
我々は,実践的な分散トレーニングを目的とした研究ライブラリであるFedGraphを紹介する。
FedGraphは最先端のグラフ学習メソッドをサポートし、システムパフォーマンスを評価するモニタリングクラスを含んでいる。
論文 参考訳(メタデータ) (2024-10-08T20:18:18Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。