Fugu-MT 論文翻訳(概要): PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization

論文の概要: PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization

arxiv url: http://arxiv.org/abs/2506.01475v1
Date: Mon, 02 Jun 2025 09:35:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.173393
Title: PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization
Title（参考訳）: PGPO:擬似コード型計画優先最適化によるエージェント推論の強化
Authors: Zouying Cao, Runze Wang, Yifei Yang, Xinbei Ma, Xiaoyong Zhu, Bo Zheng, Hai Zhao,
Abstract要約: 本稿では,効果的なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。 2つの計画指向の報酬により、PGPOは、高品質なPコードプランを生成するLLMエージェントの能力をさらに強化する。実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
参考スコア（独自算出の注目度）: 58.465778756331574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Model (LLM) agents have demonstrated impressive capabilities in handling complex interactive problems. Existing LLM agents mainly generate natural language plans to guide reasoning, which is verbose and inefficient. NL plans are also tailored to specific tasks and restrict agents' ability to generalize across similar tasks. To this end, we explore pseudocode-style plans (P-code Plan) to capture the structural logic of reasoning. We find that P-code Plan empowers LLM agents with stronger generalization ability and more efficiency. Inspired by this finding, we propose a pseudocode-style Planning Guided Preference Optimization method called PGPO for effective agent learning. With two planning-oriented rewards, PGPO further enhances LLM agents' ability to generate high-quality P-code Plans and subsequent reasoning. Experiments show that PGPO achieves superior performance on representative agent benchmarks and outperforms the current leading baselines. Analyses reveal the advantage of PGPO in reducing action errors and omissions during reasoning.
Abstract（参考訳）: LLM(Large Language Model)エージェントは、複雑な対話的問題に対処する際、素晴らしい能力を示した。既存のLLMエージェントは主に、冗長で非効率な推論を誘導する自然言語プランを生成する。 NL計画はまた、特定のタスクに合わせて調整され、エージェントの類似したタスクを一般化する能力を制限する。この目的のために、擬似符号型計画(P-code Plan)を探索し、推論の構造論理を捉える。 P-code PlanはLLMエージェントに強力な一般化能力と効率性を与える。この発見に触発されて,有効なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。 2つの計画指向の報酬により、PGPOはLLMエージェントが高品質なPコードプランを生成する能力をさらに強化する。実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。分析によってPGPOの利点は、推論中の動作エラーや省略を減少させることである。

関連論文リスト

Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-05-12T12:38:20Z)
MPO: Boosting LLM Agents with Meta Plan Optimization [37.35230659116656]
大規模言語モデル(LLM)により、エージェントは対話的な計画タスクにうまく取り組むことができる。既存のアプローチは、しばしば幻覚の計画に悩まされ、新しいエージェントごとに再訓練を必要とする。本稿では,明示的なガイダンスを直接組み込んでエージェント計画機能を向上させるメタプラン最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T14:54:45Z)
Vote-Tree-Planner: Optimizing Execution Order in LLM-based Task Planning Pipeline via Voting [4.500734889060007]
本稿では,大規模言語モデル(LLM)とタスク計画システムの相乗効果について述べる。本稿では,計画の有効性を高めつつ冗長性を最小化するVote-Tree-Plannerを提案する。
論文参考訳（メタデータ） (2025-02-13T20:08:06Z)
DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
本稿では,連続距離推定を離散的到達性チェックに置き換え,サブゴールの実現可能性を評価する手法を提案する。 25室のナビゲーション環境での実験では、100%の成功率を示している。この方法は運動量に基づく制御タスクにも一般化され、再計画には$log N$ステップしか必要としない。
論文参考訳（メタデータ） (2025-02-04T03:05:55Z)
Aligning CodeLLMs with Direct Preference Optimization [44.34483822102872]
この研究はまず、一般的に使われているPPOアルゴリズムがCodeLLMのアライメントに最適であることを示す。好みデータペアのみに基づいて、DPOはモデルランクデータを自動でレンダリングすることができ、きめ細かい報酬パターンを生み出す。本研究では,MBPPやHumanEvalなどのベンチマークにおいて,既存のCodeLLMの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2024-10-24T09:36:13Z)
Non-myopic Generation of Language Models for Reasoning and Planning [45.75146679449453]
本稿では,モデル予測制御を利用した予測復号化手法を提案する。我々の実験では、数学、コーディング、エージェントの幅広いタスクにおいて、大幅な改善が示されている。
論文参考訳（メタデータ） (2024-10-22T17:13:38Z)
AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文参考訳（メタデータ） (2024-08-01T17:59:46Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [52.34892973785117]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文参考訳（メタデータ） (2024-03-05T16:39:12Z)
Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-01-15T18:01:59Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。