論文の概要: Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling
- arxiv url: http://arxiv.org/abs/2301.12050v2
- Date: Thu, 27 Apr 2023 15:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 16:47:29.807832
- Title: Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling
- Title(参考訳): do embodied agents dream of pixelated sheep: 言語誘導世界モデリングを用いた具体的意思決定
- Authors: Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi,
Hannaneh Hajishirzi, Sameer Singh, Roy Fox
- Abstract要約: 強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
- 参考スコア(独自算出の注目度): 101.59430768507997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents typically learn tabula rasa, without prior
knowledge of the world. However, if initialized with knowledge of high-level
subgoals and transitions between subgoals, RL agents could utilize this
Abstract World Model (AWM) for planning and exploration. We propose using
few-shot large language models (LLMs) to hypothesize an AWM, that will be
verified through world experience, to improve sample efficiency of RL agents.
Our DECKARD agent applies LLM-guided exploration to item crafting in Minecraft
in two phases: (1) the Dream phase where the agent uses an LLM to decompose a
task into a sequence of subgoals, the hypothesized AWM; and (2) the Wake phase
where the agent learns a modular policy for each subgoal and verifies or
corrects the hypothesized AWM. Our method of hypothesizing an AWM with LLMs and
then verifying the AWM based on agent experience not only increases sample
efficiency over contemporary methods by an order of magnitude but is also
robust to and corrects errors in the LLM, successfully blending noisy
internet-scale information from LLMs with knowledge grounded in environment
dynamics.
- Abstract(参考訳): 強化学習(rl)エージェントは通常、世界に関する事前の知識なしにタブララーサを学ぶ。
しかし、高レベルのサブゴールの知識とサブゴール間の遷移を初期化すれば、RLエージェントはこの抽象世界モデル(AWM)を計画と探索に利用できる。
本稿では,RL エージェントのサンプル効率を向上させるため,世界経験を通して検証される AWM を仮説化するために,数発の大規模言語モデル (LLM) を提案する。
本報告では,マインクラフトの商品製作にllm誘導探索を応用した。(1) llmを用いてタスクを一連のサブゴールに分解するドリームフェーズ,(2) エージェントが各サブゴールのモジュラーポリシーを学習し,仮説的なawmを検証または修正するウェイクフェーズである。
LLM による AWM の仮説を立て,エージェント経験に基づく AWM の検証を行う手法は,従来の手法によるサンプリング効率を桁違いに向上させるだけでなく,LLM の誤りに対して頑健であり,環境力学に基づく知識と LLM からのノイズの多いインターネットスケール情報とのブレンドに成功している。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。
本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文 参考訳(メタデータ) (2024-01-25T13:03:20Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - Mutual Enhancement of Large Language and Reinforcement Learning Models
through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。
この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。
本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T14:35:57Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。