論文の概要: PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.01475v1
- Date: Mon, 02 Jun 2025 09:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.173393
- Title: PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization
- Title(参考訳): PGPO:擬似コード型計画優先最適化によるエージェント推論の強化
- Authors: Zouying Cao, Runze Wang, Yifei Yang, Xinbei Ma, Xiaoyong Zhu, Bo Zheng, Hai Zhao,
- Abstract要約: 本稿では,効果的なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。
2つの計画指向の報酬により、PGPOは、高品質なPコードプランを生成するLLMエージェントの能力をさらに強化する。
実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
- 参考スコア(独自算出の注目度): 58.465778756331574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents have demonstrated impressive capabilities in handling complex interactive problems. Existing LLM agents mainly generate natural language plans to guide reasoning, which is verbose and inefficient. NL plans are also tailored to specific tasks and restrict agents' ability to generalize across similar tasks. To this end, we explore pseudocode-style plans (P-code Plan) to capture the structural logic of reasoning. We find that P-code Plan empowers LLM agents with stronger generalization ability and more efficiency. Inspired by this finding, we propose a pseudocode-style Planning Guided Preference Optimization method called PGPO for effective agent learning. With two planning-oriented rewards, PGPO further enhances LLM agents' ability to generate high-quality P-code Plans and subsequent reasoning. Experiments show that PGPO achieves superior performance on representative agent benchmarks and outperforms the current leading baselines. Analyses reveal the advantage of PGPO in reducing action errors and omissions during reasoning.
- Abstract(参考訳): LLM(Large Language Model)エージェントは、複雑な対話的問題に対処する際、素晴らしい能力を示した。
既存のLLMエージェントは主に、冗長で非効率な推論を誘導する自然言語プランを生成する。
NL計画はまた、特定のタスクに合わせて調整され、エージェントの類似したタスクを一般化する能力を制限する。
この目的のために、擬似符号型計画(P-code Plan)を探索し、推論の構造論理を捉える。
P-code PlanはLLMエージェントに強力な一般化能力と効率性を与える。
この発見に触発されて,有効なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。
2つの計画指向の報酬により、PGPOはLLMエージェントが高品質なPコードプランを生成する能力をさらに強化する。
実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
分析によってPGPOの利点は、推論中の動作エラーや省略を減少させることである。
関連論文リスト
- Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - MPO: Boosting LLM Agents with Meta Plan Optimization [37.35230659116656]
大規模言語モデル(LLM)により、エージェントは対話的な計画タスクにうまく取り組むことができる。
既存のアプローチは、しばしば幻覚の計画に悩まされ、新しいエージェントごとに再訓練を必要とする。
本稿では,明示的なガイダンスを直接組み込んでエージェント計画機能を向上させるメタプラン最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T14:54:45Z) - DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
本稿では,連続距離推定を離散的到達性チェックに置き換え,サブゴールの実現可能性を評価する手法を提案する。
25室のナビゲーション環境での実験では、100%の成功率を示している。
この方法は運動量に基づく制御タスクにも一般化され、再計画には$log N$ステップしか必要としない。
論文 参考訳(メタデータ) (2025-02-04T03:05:55Z) - Non-myopic Generation of Language Models for Reasoning and Planning [45.75146679449453]
本稿では,モデル予測制御を利用した予測復号化手法を提案する。
我々の実験では、数学、コーディング、エージェントの幅広いタスクにおいて、大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-10-22T17:13:38Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。
計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。
近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。