論文の概要: Empowering LLMs with Parameterized Skills for Adversarial Long-Horizon Planning
- arxiv url: http://arxiv.org/abs/2509.13127v1
- Date: Tue, 16 Sep 2025 14:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.124779
- Title: Empowering LLMs with Parameterized Skills for Adversarial Long-Horizon Planning
- Title(参考訳): 逆長軸計画のためのパラメータ化技術を用いたLLMの強化
- Authors: Sijia Cui, Shuai Xu, Aiyao He, Yanna Wang, Bo Xu,
- Abstract要約: 私たちは言語を伴う計画を紹介します。
PLAPフレームワーク。
ロングホライゾン環境におけるLLM。
我々は,長距離リアルタイム戦略ゲームであるMicroRTSにPLAPを実装した。
- 参考スコア(独自算出の注目度): 9.816590717992012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models(LLMs) have led to the development of LLM-based AI agents. A key challenge is the creation of agents that can effectively ground themselves in complex, adversarial long-horizon environments. Existing methods mainly focus on (1) using LLMs as policies to interact with the environment through generating low-level feasible actions, and (2) utilizing LLMs to generate high-level tasks or language guides to stimulate action generation. However, the former struggles to generate reliable actions, while the latter relies heavily on expert experience to translate high-level tasks into specific action sequences. To address these challenges, we introduce the Plan with Language, Act with Parameter (PLAP) planning framework that facilitates the grounding of LLM-based agents in long-horizon environments. The PLAP method comprises three key components: (1) a skill library containing environment-specific parameterized skills, (2) a skill planner powered by LLMs, and (3) a skill executor converting the parameterized skills into executable action sequences. We implement PLAP in MicroRTS, a long-horizon real-time strategy game that provides an unfamiliar and challenging environment for LLMs. The experimental results demonstrate the effectiveness of PLAP. In particular, GPT-4o-driven PLAP in a zero-shot setting outperforms 80% of baseline agents, and Qwen2-72B-driven PLAP, with carefully crafted few-shot examples, surpasses the top-tier scripted agent, CoacAI. Additionally, we design comprehensive evaluation metrics and test 6 closed-source and 2 open-source LLMs within the PLAP framework, ultimately releasing an LLM leaderboard ranking long-horizon skill planning ability. Our code is available at https://github.com/AI-Research-TeamX/PLAP.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、LLMベースのAIエージェントの開発につながっている。
重要な課題は、複雑で敵対的なロングホライゾン環境を効果的に構築できるエージェントを作ることである。
既存の手法は,(1)低レベルな実行可能な動作を生成することで環境と対話するためのポリシーとしてLLMを使うこと,(2)高レベルなタスクや言語ガイドを生成するためにLLMを利用することに重点を置いている。
しかし、前者は信頼できるアクションを生成するのに苦労し、後者は専門家の経験に大きく依存し、ハイレベルなタスクを特定のアクションシーケンスに変換する。
これらの課題に対処するため,長期的環境下でのLLMベースのエージェントの基盤化を容易にするPLAP(Plan with Language, Act with Parameter)計画フレームワークを導入する。
PLAP法は,(1)環境特異的なパラメータ化スキルを含むスキルライブラリ,(2)LCMを動力とするスキルプランナ,(3)パラメータ化スキルを実行可能なアクションシーケンスに変換するスキルエグゼクタの3つのキーコンポーネントから構成される。
我々は,LLMの使い慣れない,挑戦的な環境を提供する,長期的リアルタイム戦略ゲームであるMicroRTSにPLAPを実装した。
その結果,PLAPの有効性が示された。
特に、ゼロショット設定におけるGPT-4o駆動のPLAPは、ベースラインエージェントの80%を上回り、Qwen2-72B駆動のPLAPは、注意深い数ショットの例で、最上位のスクリプトエージェントであるCoacAIを上回っている。
さらに、PLAPフレームワーク内に総合的な評価指標と6つのクローズドソース、および2つのオープンソースLCMを設計し、最終的にLLMリーダーボードのロングホライゾンスキルプランニング能力をリリースする。
私たちのコードはhttps://github.com/AI-Research-TeamX/PLAP.orgで公開されています。
関連論文リスト
- Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner [9.044939946653002]
言語モデル(LM)は、自然言語を理解する強力な能力を有しており、人間の指示を単純なロボットタスクの詳細な計画に変換するのに効果的である。
本稿では,言語モデル駆動型多エージェントPDDLプランナ(LaMMA-P)を提案する。
LaMMA-Pは、LMの推論能力と従来の探索プランナーの強みを統合し、高い成功率と効率を達成する。
論文 参考訳(メタデータ) (2024-09-30T17:58:18Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。
計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。
近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。