論文の概要: Sequential Planning in Large Partially Observable Environments guided by
LLMs
- arxiv url: http://arxiv.org/abs/2312.07368v1
- Date: Tue, 12 Dec 2023 15:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:40:08.628890
- Title: Sequential Planning in Large Partially Observable Environments guided by
LLMs
- Title(参考訳): LLMによる大規模部分観測可能環境の逐次計画
- Authors: Swarna Kamal Paul
- Abstract要約: 大規模状態空間と行動空間の連続的な計画は、探索空間の爆発により、すぐに困難になる。
モンテカルロ木探索のようなヒューリスティックな手法は、大きな状態空間に対して有効であるが、アクション空間が大きければ困難である。
本稿では,状態空間探索とクエリを併用したハイブリッドエージェント"neoplanner"を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential planning in large state space and action space quickly becomes
intractable due to combinatorial explosion of the search space. Heuristic
methods, like monte-carlo tree search, though effective for large state space,
but struggle if action space is large. Pure reinforcement learning methods,
relying only on reward signals, needs prohibitively large interactions with the
environment to device a viable plan. If the state space, observations and
actions can be represented in natural language then Large Language models (LLM)
can be used to generate action plans. Recently several such goal-directed
agents like Reflexion, CLIN, SayCan were able to surpass the performance of
other state-of-the-art methods with minimum or no task specific training. But
they still struggle with exploration and get stuck in local optima. Their
planning capabilities are limited by the limited reasoning capability of the
foundational LLMs on text data. We propose a hybrid agent "neoplanner", that
synergizes both state space search with queries to foundational LLM to get the
best action plan. The reward signals are quantitatively used to drive the
search. A balance of exploration and exploitation is maintained by maximizing
upper confidence bounds of values of states. In places where random exploration
is needed, the LLM is queried to generate an action plan. Learnings from each
trial are stored as entity relationships in text format. Those are used in
future queries to the LLM for continual improvement. Experiments in the
Scienceworld environment reveals a 124% improvement from the current best
method in terms of average reward gained across multiple tasks.
- Abstract(参考訳): 大規模状態空間と行動空間の連続的な計画は、探索空間の組合せ的爆発により、急速に困難になる。
モンテカルロ木探索のようなヒューリスティックな手法は、大きな状態空間に対して有効であるが、アクション空間が大きければ困難である。
報酬信号にのみ依存する純強化学習手法では, 環境との密接な相互作用が求められ, 実現可能な計画を立てる必要がある。
状態空間、観測、行動が自然言語で表現できるなら、大規模言語モデル(LLM)を使って行動計画を生成することができる。
最近、Reflexion、CLIN、SayCanといった目標指向のエージェントが、タスク固有のトレーニングを最小あるいは不要に、他の最先端メソッドのパフォーマンスを上回ることができた。
しかし、彼らはなお探検に苦労し、地元のオプティマで立ち往生している。
それらの計画能力は、テキストデータに対する基礎的なLCMの限られた推論能力によって制限される。
提案するハイブリッドエージェント "neoplanner" は, 状態空間探索とクエリとを融合して, 最善のアクションプランを得るための基礎的llmを提案する。
報酬信号は、探索の駆動に定量的に使用される。
探索と搾取のバランスは、状態の値の上限を最大化することで維持される。
ランダムな探索が必要な場所では、LCMをクエリしてアクションプランを生成する。
各トライアルからの学習は、テキスト形式でエンティティ関係として格納される。
これらは今後のLLMへの問い合わせで、継続的な改善に使用される。
サイエンスワールド環境での実験では、複数のタスクで得られる平均報酬の観点から、現在のベストメソッドから124%改善されている。
関連論文リスト
- StateAct: State Tracking and Reasoning for Acting and Planning with Large Language Models [10.359008237358603]
対話型環境における大規模言語モデル(LLM)を用いたリアルタスクの計画と実行が,AI手法の新たなフロンティアとなっている。
LLMの計画と動作のための状態追跡によるチェーン・オブ・シントの強化を目的とした,数発のインコンテキスト学習のみに基づく簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-09-21T05:54:35Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large
Language Models [27.318186938382233]
本研究では,大規模言語モデル(LLM)を具体化エージェントのプランナーとして用いることに焦点を当てた。
そこで本研究では,大規模言語モデルのパワーを活かして少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。
論文 参考訳(メタデータ) (2022-12-08T05:46:32Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。