論文の概要: Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling
- arxiv url: http://arxiv.org/abs/2301.12050v2
- Date: Thu, 27 Apr 2023 15:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 16:47:29.807832
- Title: Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling
- Title(参考訳): do embodied agents dream of pixelated sheep: 言語誘導世界モデリングを用いた具体的意思決定
- Authors: Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi,
Hannaneh Hajishirzi, Sameer Singh, Roy Fox
- Abstract要約: 強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
- 参考スコア(独自算出の注目度): 101.59430768507997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents typically learn tabula rasa, without prior
knowledge of the world. However, if initialized with knowledge of high-level
subgoals and transitions between subgoals, RL agents could utilize this
Abstract World Model (AWM) for planning and exploration. We propose using
few-shot large language models (LLMs) to hypothesize an AWM, that will be
verified through world experience, to improve sample efficiency of RL agents.
Our DECKARD agent applies LLM-guided exploration to item crafting in Minecraft
in two phases: (1) the Dream phase where the agent uses an LLM to decompose a
task into a sequence of subgoals, the hypothesized AWM; and (2) the Wake phase
where the agent learns a modular policy for each subgoal and verifies or
corrects the hypothesized AWM. Our method of hypothesizing an AWM with LLMs and
then verifying the AWM based on agent experience not only increases sample
efficiency over contemporary methods by an order of magnitude but is also
robust to and corrects errors in the LLM, successfully blending noisy
internet-scale information from LLMs with knowledge grounded in environment
dynamics.
- Abstract(参考訳): 強化学習(rl)エージェントは通常、世界に関する事前の知識なしにタブララーサを学ぶ。
しかし、高レベルのサブゴールの知識とサブゴール間の遷移を初期化すれば、RLエージェントはこの抽象世界モデル(AWM)を計画と探索に利用できる。
本稿では,RL エージェントのサンプル効率を向上させるため,世界経験を通して検証される AWM を仮説化するために,数発の大規模言語モデル (LLM) を提案する。
本報告では,マインクラフトの商品製作にllm誘導探索を応用した。(1) llmを用いてタスクを一連のサブゴールに分解するドリームフェーズ,(2) エージェントが各サブゴールのモジュラーポリシーを学習し,仮説的なawmを検証または修正するウェイクフェーズである。
LLM による AWM の仮説を立て,エージェント経験に基づく AWM の検証を行う手法は,従来の手法によるサンプリング効率を桁違いに向上させるだけでなく,LLM の誤りに対して頑健であり,環境力学に基づく知識と LLM からのノイズの多いインターネットスケール情報とのブレンドに成功している。
関連論文リスト
- WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている
MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文 参考訳(メタデータ) (2024-10-09T23:37:36Z) - Controlling Large Language Model Agents with Entropic Activation Steering [20.56909601159833]
In-context Learning Agent のためのアクティベーションステアリングである Entropic Activation Steering (EAST) を導入する。
EAST は LLM の出力から解析された高レベルな動作に直接影響を与えることにより LLM エージェントの探索を効果的に操作できることを示す。
また, この制御を適用することで, LLMの思考に現れる不確実性を調節し, エージェントをより探索的な行動へと導くことも明らかにした。
論文 参考訳(メタデータ) (2024-06-01T00:25:00Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。
本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文 参考訳(メタデータ) (2024-01-25T13:03:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。