Fugu-MT 論文翻訳(概要): Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making using Language Guided World Modelling

論文の概要: Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making using Language Guided World Modelling

arxiv url: http://arxiv.org/abs/2301.12050v1
Date: Sat, 28 Jan 2023 02:04:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 19:22:05.488240
Title: Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making using Language Guided World Modelling
Title（参考訳）: 身体的なエージェントはめちゃめちゃな羊の夢を? 言語指導世界モデルを用いた身体的意思決定
Authors: Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh, Roy Fox
Abstract要約: 強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしにタブラララザを学習する。本稿では, LLMを用いて抽象世界モデル (AWM) を仮説化し, 計画と探索を行う。 LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
参考スコア（独自算出の注目度）: 101.59430768507997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) agents typically learn tabula rasa, without prior knowledge of the world, which makes learning complex tasks with sparse rewards difficult. If initialized with knowledge of high-level subgoals and transitions between subgoals, RL agents could utilize this Abstract World Model (AWM) for planning and exploration. We propose using few-shot large language models (LLMs) to hypothesize an AWM, that is tested and verified during exploration, to improve sample efficiency in embodied RL agents. Our DECKARD agent applies LLM-guided exploration to item crafting in Minecraft in two phases: (1) the Dream phase where the agent uses an LLM to decompose a task into a sequence of subgoals, the hypothesized AWM; and (2) the Wake phase where the agent learns a modular policy for each subgoal and verifies or corrects the hypothesized AWM on the basis of its experiences. Our method of hypothesizing an AWM with LLMs and then verifying the AWM based on agent experience not only increases sample efficiency over contemporary methods by an order of magnitude but is also robust to and corrects errors in the LLM, successfully blending noisy internet-scale information from LLMs with knowledge grounded in environment dynamics.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)エージェントは通常、世界の知識のないタブララザを学習する。高レベルサブゴールの知識とサブゴール間の遷移を初期化すれば、RLエージェントはこの抽象世界モデル(AWM)を計画と探索に利用できる。そこで本研究では,LL エージェントのサンプル効率を向上させるため,探索中に検証・検証された AWM を仮説化するために,LLM を用いた少数ショット大言語モデルを提案する。筆者らのDECKARDエージェントは,(1) LLMを用いてタスクをサブゴールの列に分解するドリームフェーズ,(2) エージェントが各サブゴールのモジュラポリシを学習し,その経験に基づいて仮定されたAWMを検証または修正するウェイクフェーズの2段階において,Minecraftの項目作成にLLM誘導探索を適用した。 LLM による AWM の仮説を立て,エージェント経験に基づく AWM の検証を行う手法は,従来の手法によるサンプリング効率を桁違いに向上させるだけでなく,LLM の誤りに対して頑健であり,環境力学に基づく知識と LLM からのノイズの多いインターネットスケール情報とのブレンドに成功している。

関連論文リスト

Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文参考訳（メタデータ） (2025-05-23T08:20:15Z)
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents [55.64361927346957]
本研究では,大規模言語モデル(LLM)を補完する環境の記号的知識を学習する「世界アライメント」を提案する。また、モデル予測制御フレームワークを用いて、RLフリーでモデルベースエージェント「WALL-E 2.0」を提案する。 WALL-E 2.0は、火星(Minecraftのような)とALFWorld(emboded indoor environment)のオープンワールド課題における既存の手法を著しく上回っている
論文参考訳（メタデータ） (2025-04-22T10:58:27Z)
Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning [48.098838027631494]
現実の環境で活動する身体的エージェントは、曖昧で特定されていない人間の指示を解釈しなければならない。本研究では,Ask-to-Actタスクを導入し,具体的エージェントがホーム環境においてあいまいな指示を受けると,特定のオブジェクトインスタンスをフェッチしなければならない。 LLM生成報酬を用いたオンライン強化学習(RL)を用いた視覚言語行動(VLA)ポリシーとして,マルチモーダル大規模言語モデル(MLLM)を微調整する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-04-01T15:41:50Z)
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文参考訳（メタデータ） (2024-10-09T23:37:36Z)
Controlling Large Language Model Agents with Entropic Activation Steering [20.56909601159833]
In-context Learning Agent のためのアクティベーションステアリングである Entropic Activation Steering (EAST) を導入する。 EAST は LLM の出力から解析された高レベルな動作に直接影響を与えることにより LLM エージェントの探索を効果的に操作できることを示す。また, この制御を適用することで, LLMの思考に現れる不確実性を調節し, エージェントをより探索的な行動へと導くことも明らかにした。
論文参考訳（メタデータ） (2024-06-01T00:25:00Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文参考訳（メタデータ） (2024-03-18T17:51:16Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文参考訳（メタデータ） (2024-01-25T13:03:20Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
LgTS: Dynamic Task Sampling using LLM-generated sub-goals for Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文参考訳（メタデータ） (2023-10-14T00:07:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。