論文の概要: Code Driven Planning with Domain-Adaptive Critic
- arxiv url: http://arxiv.org/abs/2509.19077v1
- Date: Tue, 23 Sep 2025 14:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.894201
- Title: Code Driven Planning with Domain-Adaptive Critic
- Title(参考訳): ドメイン適応的批判によるコード駆動計画
- Authors: Zikang Tian, Shaohui Peng, Du Huang, Jiaming Guo, Ruizhi Chen, Rui Zhang, Xishan Zhang, Yuxuan Guo, Zidong Du, Qi Guo, Ling Li, Yewen Pu, Xing Hu, Yunji Chen,
- Abstract要約: ドメイン適応的批判(CoPiC)を用いたコード駆動計画を提案する。
頻繁なクエリに頼る代わりに、CoPiCはLLMを使用して、多様な高レベルの計画プログラムを生成する。
訓練されたドメイン適応的批評家は、これらの候補を評価し、実行に対する長期的な報酬と最も整合した候補を選択する。
- 参考スコア(独自算出の注目度): 41.04089289445378
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have been widely adopted as task planners for AI agents in sequential decision-making problems, leveraging their extensive world knowledge. However, the gap between their general knowledge and environment-specific requirements often leads to inaccurate plans. To address this, existing approaches rely on frequent LLM queries to iteratively refine plans based on immediate environmental feedback, which incurs substantial query costs. However, this refinement is typically guided by short-term environmental feedback, limiting LLMs from developing plans aligned with long-term rewards. We propose Code Driven Planning with Domain-Adaptive Critic (CoPiC). Instead of relying on frequent queries, CoPiC employs LLMs to generate a diverse set of high-level planning programs, which iteratively produce and refine candidate plans. A trained domain-adaptive critic then evaluates these candidates and selects the one most aligned with long-term rewards for execution. Using high-level planning programs as planner and domain-adaptive critic as estimator, CoPiC improves planning while significantly reducing query costs. Results in ALFWorld, NetHack, and StarCraft II Unit Building show that CoPiC outperforms advanced LLM-based baselines, AdaPlanner and Reflexion, achieving an average (1) 23.33% improvement in success rate and (2) 91.27% reduction in query costs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AIエージェントのタスクプランナとして、シーケンシャルな意思決定問題において広く採用されており、その広範な世界の知識を活用している。
しかしながら、それらの一般的な知識と環境固有の要求とのギャップは、しばしば不正確な計画につながる。
これを解決するために、既存のアプローチでは、頻繁なLCMクエリに頼って、即時的な環境フィードバックに基づいた計画を反復的に洗練し、かなりのクエリコストを発生させる。
しかし、この改良は短期的な環境フィードバックによって導かれ、LLMは長期的報酬に対応する計画の開発を制限している。
ドメイン適応的批判(CoPiC)を用いたコード駆動計画を提案する。
頻繁なクエリに頼る代わりに、CoPiCはLSMを使って多様なハイレベル計画プログラムを生成し、候補プランを反復的に作成し、洗練する。
訓練されたドメイン適応的批評家は、これらの候補を評価し、実行に対する長期的な報酬と最も整合した候補を選択する。
高レベルの計画プログラムをプランナーとして、ドメイン順応的な批判を見積もって、CoPiCは、クエリコストを大幅に削減しながら、計画を改善する。
ALFWorld、NetHack、StarCraft II Unit Buildingの結果、CoPiCは高度なLCMベースのベースライン、AdaPlannerとReflexionを上回り、平均1.23.33%の成功率と2.91.27%のクエリコストを達成している。
関連論文リスト
- CRISP: Complex Reasoning with Interpretable Step-based Plans [15.656686375199921]
数学的推論とコード生成のための高レベルプランのデータセットであるCRISP(Complex Reasoning with Interpretable Step-based Plans)を紹介する。
CRISP上で小さなモデルを微調整することで、より大規模なモデルよりも高品質なプランを少数ショットプロンプトで作成できることを実証する。
論文 参考訳(メタデータ) (2025-07-09T11:40:24Z) - PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization [58.465778756331574]
本稿では,効果的なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。
2つの計画指向の報酬により、PGPOは、高品質なPコードプランを生成するLLMエージェントの能力をさらに強化する。
実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-06-02T09:35:07Z) - Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code [8.971234046933349]
大規模言語モデル(LLM)は、計画タスクの詳細な定義を伴っても、確実に計画に失敗する。
サイズが大きくなるような配布外タスクであっても、LCMを使って正確な計画を生成する方法を示す。
論文 参考訳(メタデータ) (2025-03-24T15:50:20Z) - Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming [13.246017517159043]
大規模言語モデル(LLM)は近年,計画問題の解決に強い可能性を示している。
LLpreview は LLM を利用して,計画上の問題から重要な情報を抽出し,それらをスクラッチから最適化するフレームワークである。
GPToとClaude 3.5 Sonnetの9つのタスクに対して,LLが平均83.7%,86.8%の最適速度で達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T23:20:54Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。