論文の概要: Retrieval-Augmented Hierarchical in-Context Reinforcement Learning and Hindsight Modular Reflections for Task Planning with LLMs
- arxiv url: http://arxiv.org/abs/2408.06520v2
- Date: Fri, 4 Oct 2024 17:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 11:26:46.592068
- Title: Retrieval-Augmented Hierarchical in-Context Reinforcement Learning and Hindsight Modular Reflections for Task Planning with LLMs
- Title(参考訳): LLMを用いたタスク計画のための検索型階層型階層型インコンテクスト強化学習と隠れモジュールリフレクション
- Authors: Chuanneng Sun, Songjun Huang, Dario Pompili,
- Abstract要約: 本研究では,大規模言語モデルを対象とした検索言語強化学習(RAHL)を提案する。
RAHLはLLMベースの高レベルポリシーを使用して複雑なタスクをサブタスクに分解する。
その結果, RAHLは5エピソードで9%, 42%, 10%のパフォーマンス向上が達成できた。
- 参考スコア(独自算出の注目度): 8.55917897789612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable abilities in various language tasks, making them promising candidates for decision-making in robotics. Inspired by Hierarchical Reinforcement Learning (HRL), we propose Retrieval-Augmented in-context reinforcement Learning (RAHL), a novel framework that decomposes complex tasks into sub-tasks using an LLM-based high-level policy, in which a complex task is decomposed into sub-tasks by a high-level policy on-the-fly. The sub-tasks, defined by goals, are assigned to the low-level policy to complete. To improve the agent's performance in multi-episode execution, we propose Hindsight Modular Reflection (HMR), where, instead of reflecting on the full trajectory, we let the agent reflect on shorter sub-trajectories to improve reflection efficiency. We evaluated the decision-making ability of the proposed RAHL in three benchmark environments--ALFWorld, Webshop, and HotpotQA. The results show that RAHL can achieve an improvement in performance in 9%, 42%, and 10% in 5 episodes of execution in strong baselines. Furthermore, we also implemented RAHL on the Boston Dynamics SPOT robot. The experiment shows that the robot can scan the environment, find entrances, and navigate to new rooms controlled by the LLM policy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な言語タスクにおいて顕著な能力を示しており、ロボット工学における意思決定の候補として有望である。
階層強化学習(Hierarchical Reinforcement Learning, HRL)に着想を得て, 複雑なタスクをLDMベースの高レベルポリシーを用いてサブタスクに分解する新しいフレームワークであるRetrieval-Augmented in-context reinforcement Learning (RAHL)を提案する。
目標によって定義されたサブタスクは、完成する低レベルポリシーに割り当てられる。
マルチエピソード実行におけるエージェントの性能を向上させるため,HMR(Hindsight Modular Reflection)を提案する。
提案するRAHLの判定能力は,ALFWorld,Webshop,HotpotQAの3つのベンチマーク環境で評価した。
以上の結果から, RAHLは5エピソードで9%, 42%, 10%において, 強いベースラインでのパフォーマンス向上を達成できることが示唆された。
さらに,Boston Dynamics SPOTロボットにRAHLを実装した。
実験の結果、ロボットは環境をスキャンし、入り口を見つけ、LSMポリシーで制御された新しい部屋へと移動できることがわかった。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。
LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。
トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文 参考訳(メタデータ) (2024-10-11T08:54:45Z) - Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models [6.860460230412773]
移動体エージェントのためのLLM方式の経路計画フレームワークを提案する。
提案する多層アーキテクチャは,経路計画段階におけるLPMを用いて,移動エージェントの低レベルアクチュエータと統合する。
本実験により,LLMの2次元平面推論能力と完全カバレッジパス計画タスクを改善することができることが示された。
論文 参考訳(メタデータ) (2024-07-02T12:38:46Z) - LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning [22.99690700210957]
言語命令を利用して,より高レベルなポリシーのための静的報酬関数を生成する新しいHRLフレームワークを提案する。
言語誘導報酬はより低い原始的な振る舞いに影響されないため、LGR2は非定常性を緩和する。
弊社のアプローチは、難易度の高いスパークリワードロボットナビゲーションと操作環境において、70ドル以上の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-09T18:40:24Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。