論文の概要: Enhancing Agent Learning through World Dynamics Modeling
- arxiv url: http://arxiv.org/abs/2407.17695v2
- Date: Tue, 15 Oct 2024 15:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:38.096067
- Title: Enhancing Agent Learning through World Dynamics Modeling
- Title(参考訳): 世界ダイナミクスモデリングによるエージェント学習の強化
- Authors: Zhiyuan Sun, Haochen Shi, Marc-Alexandre Côté, Glen Berseth, Xingdi Yuan, Bang Liu,
- Abstract要約: 少数のデモから世界ダイナミクスを発見するためのフレームワークであるDiVEを紹介する。
我々は,各コンポーネントが性能に与える影響を評価し,DiVEが生成するダイナミクスと人為的アノテーションのダイナミクスを比較した。
以上の結果から,DiVE が指導する LLM は,クラフト環境における人間プレイヤーに匹敵する報酬を得られる,より情報的な決定を下すことが示唆された。
- 参考スコア(独自算出の注目度): 40.97719122108189
- License:
- Abstract: Large language models (LLMs) have been increasingly applied to tasks in language understanding and interactive decision-making, with their impressive performance largely attributed to the extensive domain knowledge embedded within them. However, the depth and breadth of this knowledge can vary across domains. Many existing approaches assume that LLMs possess a comprehensive understanding of their environment, often overlooking potential gaps in their grasp of actual world dynamics. To address this, we introduce Discover, Verify, and Evolve (DiVE), a framework that discovers world dynamics from a small number of demonstrations, verifies the accuracy of these dynamics, and evolves new, advanced dynamics tailored to the current situation. Through extensive evaluations, we assess the impact of each component on performance and compare the dynamics generated by DiVE to human-annotated dynamics. Our results show that LLMs guided by DiVE make more informed decisions, achieving rewards comparable to human players in the Crafter environment and surpassing methods that require prior task-specific training in the MiniHack environment.
- Abstract(参考訳): 大きな言語モデル(LLM)は、言語理解と対話的な意思決定のタスクにますます適用されてきている。
しかし、この知識の深さと幅はドメインによって異なる。
既存の多くのアプローチでは、LLMは環境を包括的に理解しており、しばしば現実の世界力学の把握における潜在的なギャップを見落としていると仮定している。
少数のデモから世界ダイナミクスを発見し、これらのダイナミクスの精度を検証し、現在の状況に合わせて新しい高度なダイナミクスを進化させるフレームワークであるDiscover, Verify, and Evolve(DiVE)を紹介する。
広範囲な評価を通じて、各コンポーネントが性能に与える影響を評価し、DiVEが生成するダイナミクスと人間のアノテーションによるダイナミクスを比較した。
以上の結果から,DiVE が指導する LLM は,クラフト環境における人間プレイヤーに匹敵する報奨を達成し,MiniHack 環境におけるタスク固有の事前訓練を必要とする手法を超越した,より情報的な決定を下すことが示唆された。
関連論文リスト
- Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Comparing Rationality Between Large Language Models and Humans: Insights and Open Questions [6.201550639431176]
本稿では,大規模言語モデル(LLM)の急成長に焦点をあてる。
我々は,LLMの合理性と意思決定能力の増強において,人間フィードバックからの強化学習(RLHF)が果たす重要な役割を強調した。
論文 参考訳(メタデータ) (2024-03-14T18:36:04Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - ALCUNA: Large Language Models Meet New Knowledge [48.30457202012987]
本稿では,既存のエンティティ属性と関係を変化させることで,新たな知識を生み出すアプローチを提案する。
KnowGenでは、知識理解、分化、関連性におけるLLMの能力を評価するために、ALCUNAというベンチマークを導入する。
また、エンティティの類似性がモデルにおけるエンティティ知識の理解とコンテキストエンティティの影響に与える影響についても検討する。
論文 参考訳(メタデータ) (2023-10-23T11:40:05Z) - Penetrative AI: Making LLMs Comprehend the Physical World [3.0266193917041306]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示しています。
本稿は,IoTセンサとアクチュエータを用いて,LLMを物理的世界と相互作用し,推論するために拡張する方法について検討する。
論文 参考訳(メタデータ) (2023-10-14T15:48:15Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。