論文の概要: Graph-Enhanced Policy Optimization in LLM Agent Training
- arxiv url: http://arxiv.org/abs/2510.26270v1
- Date: Thu, 30 Oct 2025 08:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.717495
- Title: Graph-Enhanced Policy Optimization in LLM Agent Training
- Title(参考訳): LLMエージェント訓練におけるグラフ強化政策最適化
- Authors: Jiazhen Yuan, Wei Zhao, Zhengbiao Bai,
- Abstract要約: グループベース強化学習(RL)は複雑な推論や数学的タスクにおいて顕著な結果を示した。
グループベース強化学習(RL)は複雑な推論や数学的タスクにおいて顕著な結果を示した。
- 参考スコア(独自算出の注目度): 3.177432419321498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group based reinforcement learning (RL) has shown impressive results on complex reasoning and mathematical tasks. Yet, when applied to train multi-turn, interactive LLM agents, these methods often suffer from structural blindness-the inability to exploit the underlying connectivity of the environment. This manifests in three critical challenges: (1) inefficient, unguided exploration, (2) imprecise credit assignment due to overlooking pivotal states, and (3) myopic planning caused by static reward discounting. We address these issues with Graph-Enhanced Policy Optimization (GEPO), which dynamically constructs a state-transition graph from agent experience and employs graph-theoretic centrality to provide three synergistic learning signals: (1)structured intrinsic rewards that guide exploration toward high-impact states, (2) a graph-enhanced advantage function for topology-aware credit assignment, and (3) a dynamic discount factor adapted to each state's strategic value. On the ALFWorld, WebShop, and a proprietary Workbench benchmarks, GEPO demonstrates strong performance, achieving absolute success rate gains of +4.1%, +5.3%, and +10.9% over competitive baselines. These results highlight that explicitly modeling environmental structure is a robust, generalizable strategy for advancing LLM agent training.
- Abstract(参考訳): グループベース強化学習(RL)は複雑な推論や数学的タスクにおいて顕著な結果を示した。
しかし、マルチターン・インタラクティブなLDMエージェントの訓練に適用する場合、これらの手法は環境の基盤となる接続性を利用することができない構造的盲点に悩まされることが多い。
これは,(1)非効率,非誘導探索,(2)重要状態を見下ろした不正確な信用割当,(3)静的報酬割引による明視計画の3つの重要な課題に現れている。
エージェント経験から状態遷移グラフを動的に構築し,グラフ理論中心性を用いて3つの相乗的学習信号を提供するグラフ拡張政策最適化(GEPO)では,これらの課題に対処する。
ALFWorld、WebShop、およびプロプライエタリなWorkbenchベンチマークでは、GEPOは強力なパフォーマンスを示し、絶対的な成功率は+4.1%、+5.3%、+10.9%である。
これらの結果は、環境構造を明示的にモデル化することは、LLMエージェント訓練を進めるための堅牢で一般化可能な戦略であることを示している。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Power Grid Control with Graph-Based Distributed Reinforcement Learning [60.49805771047161]
この作業は、リアルタイムでスケーラブルなグリッド管理のためのグラフベースの分散強化学習フレームワークを前進させる。
グラフニューラルネットワーク(GNN)を使用して、ネットワークのトポロジ情報を単一の低レベルエージェントの観測内にエンコードする。
Grid2Opシミュレーション環境での実験は、このアプローチの有効性を示している。
論文 参考訳(メタデータ) (2025-09-02T22:17:25Z) - Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment [24.296667264939515]
我々は、SFT(教師付き微調整)とRL(強化学習)の強みを相乗化するための統一フレームワークであるGRAO(Group Relative Alignment Optimization)を提案する。
我々の理論解析はGRAOの収束保証と従来の手法に対するサンプル効率の優位性を確立するものである。
この研究は、理論上基礎付けられたアライメントフレームワークと、言語モデルにおける効率的な能力進化の実証的な証拠の両方を提供する。
論文 参考訳(メタデータ) (2025-08-11T08:28:47Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning [58.73279333365234]
合成グラフ理論タスクにおける強化学習(RL)はグラフ推論能力を著しく拡張することができる。
RL on ErdosでG1はグラフ推論の大幅な改善を実現し、微調整された3BモデルはQwen2.5-72B-Instruct(24倍)よりも優れています。
我々の研究は、グラフ理論上のRLでLLMを微調整することで、強力なグラフ推論器を構築するための効率的でスケーラブルな経路を提供する。
論文 参考訳(メタデータ) (2025-05-24T04:33:41Z) - Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - Self-supervised Learning of Dense Hierarchical Representations for Medical Image Segmentation [2.2265038612930663]
本稿では,高密度下流タスクに適したボクセルワイド粗い表現を学習するための自己教師型フレームワークについて述べる。
我々は、複数のスケールから機能のコントリビューションのバランスをとるためのトレーニング戦略を考案し、学習された表現が粗い詳細ときめ細かい詳細の両方を捉えることを保証する。
論文 参考訳(メタデータ) (2024-01-12T09:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。