論文の概要: Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making
using Language Guided World Modelling
- arxiv url: http://arxiv.org/abs/2301.12050v1
- Date: Sat, 28 Jan 2023 02:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:22:05.488240
- Title: Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making
using Language Guided World Modelling
- Title(参考訳): 身体的なエージェントは めちゃめちゃな羊の夢を?
言語指導世界モデルを用いた身体的意思決定
- Authors: Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi,
Hannaneh Hajishirzi, Sameer Singh, Roy Fox
- Abstract要約: 強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしにタブラララザを学習する。
本稿では, LLMを用いて抽象世界モデル (AWM) を仮説化し, 計画と探索を行う。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
- 参考スコア(独自算出の注目度): 101.59430768507997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents typically learn tabula rasa, without prior
knowledge of the world, which makes learning complex tasks with sparse rewards
difficult. If initialized with knowledge of high-level subgoals and transitions
between subgoals, RL agents could utilize this Abstract World Model (AWM) for
planning and exploration. We propose using few-shot large language models
(LLMs) to hypothesize an AWM, that is tested and verified during exploration,
to improve sample efficiency in embodied RL agents. Our DECKARD agent applies
LLM-guided exploration to item crafting in Minecraft in two phases: (1) the
Dream phase where the agent uses an LLM to decompose a task into a sequence of
subgoals, the hypothesized AWM; and (2) the Wake phase where the agent learns a
modular policy for each subgoal and verifies or corrects the hypothesized AWM
on the basis of its experiences. Our method of hypothesizing an AWM with LLMs
and then verifying the AWM based on agent experience not only increases sample
efficiency over contemporary methods by an order of magnitude but is also
robust to and corrects errors in the LLM, successfully blending noisy
internet-scale information from LLMs with knowledge grounded in environment
dynamics.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)エージェントは通常、世界の知識のないタブララザを学習する。
高レベルサブゴールの知識とサブゴール間の遷移を初期化すれば、RLエージェントはこの抽象世界モデル(AWM)を計画と探索に利用できる。
そこで本研究では,LL エージェントのサンプル効率を向上させるため,探索中に検証・検証された AWM を仮説化するために,LLM を用いた少数ショット大言語モデルを提案する。
筆者らのDECKARDエージェントは,(1) LLMを用いてタスクをサブゴールの列に分解するドリームフェーズ,(2) エージェントが各サブゴールのモジュラポリシを学習し,その経験に基づいて仮定されたAWMを検証または修正するウェイクフェーズの2段階において,Minecraftの項目作成にLLM誘導探索を適用した。
LLM による AWM の仮説を立て,エージェント経験に基づく AWM の検証を行う手法は,従来の手法によるサンプリング効率を桁違いに向上させるだけでなく,LLM の誤りに対して頑健であり,環境力学に基づく知識と LLM からのノイズの多いインターネットスケール情報とのブレンドに成功している。
関連論文リスト
- WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている
MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文 参考訳(メタデータ) (2024-10-09T23:37:36Z) - Controlling Large Language Model Agents with Entropic Activation Steering [20.56909601159833]
In-context Learning Agent のためのアクティベーションステアリングである Entropic Activation Steering (EAST) を導入する。
EAST は LLM の出力から解析された高レベルな動作に直接影響を与えることにより LLM エージェントの探索を効果的に操作できることを示す。
また, この制御を適用することで, LLMの思考に現れる不確実性を調節し, エージェントをより探索的な行動へと導くことも明らかにした。
論文 参考訳(メタデータ) (2024-06-01T00:25:00Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。
本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文 参考訳(メタデータ) (2024-01-25T13:03:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。