論文の概要: Enhancing Agent Learning through World Dynamics Modeling
- arxiv url: http://arxiv.org/abs/2407.17695v2
- Date: Tue, 15 Oct 2024 15:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:12:19.848382
- Title: Enhancing Agent Learning through World Dynamics Modeling
- Title(参考訳): 世界ダイナミクスモデリングによるエージェント学習の強化
- Authors: Zhiyuan Sun, Haochen Shi, Marc-Alexandre Côté, Glen Berseth, Xingdi Yuan, Bang Liu,
- Abstract要約: 少数のデモから世界ダイナミクスを発見するためのフレームワークであるDiVEを紹介する。
我々は,各コンポーネントが性能に与える影響を評価し,DiVEが生成するダイナミクスと人為的アノテーションのダイナミクスを比較した。
以上の結果から,DiVE が指導する LLM は,クラフト環境における人間プレイヤーに匹敵する報酬を得られる,より情報的な決定を下すことが示唆された。
- 参考スコア(独自算出の注目度): 40.97719122108189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been increasingly applied to tasks in language understanding and interactive decision-making, with their impressive performance largely attributed to the extensive domain knowledge embedded within them. However, the depth and breadth of this knowledge can vary across domains. Many existing approaches assume that LLMs possess a comprehensive understanding of their environment, often overlooking potential gaps in their grasp of actual world dynamics. To address this, we introduce Discover, Verify, and Evolve (DiVE), a framework that discovers world dynamics from a small number of demonstrations, verifies the accuracy of these dynamics, and evolves new, advanced dynamics tailored to the current situation. Through extensive evaluations, we assess the impact of each component on performance and compare the dynamics generated by DiVE to human-annotated dynamics. Our results show that LLMs guided by DiVE make more informed decisions, achieving rewards comparable to human players in the Crafter environment and surpassing methods that require prior task-specific training in the MiniHack environment.
- Abstract(参考訳): 大きな言語モデル(LLM)は、言語理解と対話的な意思決定のタスクにますます適用されてきている。
しかし、この知識の深さと幅はドメインによって異なる。
既存の多くのアプローチでは、LLMは環境を包括的に理解しており、しばしば現実の世界力学の把握における潜在的なギャップを見落としていると仮定している。
少数のデモから世界ダイナミクスを発見し、これらのダイナミクスの精度を検証し、現在の状況に合わせて新しい高度なダイナミクスを進化させるフレームワークであるDiscover, Verify, and Evolve(DiVE)を紹介する。
広範囲な評価を通じて、各コンポーネントが性能に与える影響を評価し、DiVEが生成するダイナミクスと人間のアノテーションによるダイナミクスを比較した。
以上の結果から,DiVE が指導する LLM は,クラフト環境における人間プレイヤーに匹敵する報奨を達成し,MiniHack 環境におけるタスク固有の事前訓練を必要とする手法を超越した,より情報的な決定を下すことが示唆された。
関連論文リスト
- BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence [2.890656584329591]
Online Decision MetaMorphFormer (ODM)は、自己認識、環境認識、行動計画の実現を目的としている。
ODMは、異なる環境にあるマルチジョイントボディを持つ任意のエージェントに適用することができ、大規模な事前トレーニングデータセットを使用して、さまざまなタイプのタスクでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-09-11T15:22:43Z) - Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Language Models Meet World Models: Embodied Experiences Enhance Language
Models [48.70726641605047]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。
我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T00:35:38Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。