論文の概要: Evaluating World Models with LLM for Decision Making
- arxiv url: http://arxiv.org/abs/2411.08794v1
- Date: Wed, 13 Nov 2024 17:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:22.501085
- Title: Evaluating World Models with LLM for Decision Making
- Title(参考訳): 意思決定のためのLLMを用いた世界モデルの評価
- Authors: Chang Yang, Xinrun Wang, Junzhe Jiang, Qinggang Zhang, Xiao Huang,
- Abstract要約: 世界モデルは意思決定において重要なモジュールとして登場し、MuZeroとDreamerは複雑なタスクで驚くべき成功を収めた。
最近の研究は、Large Language Models (LLM) を一般世界のシミュレータとして活用し、その一般化性から世界のダイナミクスをシミュレートしている。
本研究は,LLMを用いた世界モデルの包括的評価を意思決定の観点から提案する。
- 参考スコア(独自算出の注目度): 14.029514959117067
- License:
- Abstract: World model emerges as a key module in decision making, where MuZero and Dreamer achieve remarkable successes in complex tasks. Recent work leverages Large Language Models (LLMs) as general world simulators to simulate the dynamics of the world due to their generalizability. LLMs also serve as the world model for deliberative reasoning in Reasoning via Planning (RAP) and Tree of Thought (ToT). However, the world models are either evaluated as a general world simulator, or as a functional module of the agent, i.e., predicting the transitions to assist the planning. In this work, we propose a comprehensive evaluation of the world models with LLMs from the decision making perspective. Specifically, we leverage the 31 diverse environments from (Wang et al., 2023;2024) and curate the rule-based policy of each environment for the diverse evaluation. Then, we design three main tasks, i.e., policy verification, action proposal, and policy planning, where the world models can be used for decision making solely. Finally, we conduct the comprehensive evaluation of the advanced LLMs, i.e., GPT-4o and GPT-4o-mini, on the environments for the three main tasks under various settings. The key observations include: i) GPT-4o significantly outperforms GPT-4o-mini on the three main tasks, especially for the tasks which require the domain knowledge, ii) the performance of the world model with LLM will be decreased for long-term decision-making tasks, and iii) the combination of different functionalities of the world model will brings additional unstabilities of the performance.
- Abstract(参考訳): 世界モデルは意思決定において重要なモジュールとして登場し、MuZeroとDreamerは複雑なタスクで驚くべき成功を収めた。
最近の研究は、Large Language Models (LLM) を一般世界のシミュレータとして活用し、その一般化性から世界のダイナミクスをシミュレートしている。
LLMは、Reasoning via Planning (RAP) や Tree of Thought (ToT) の議論的推論の世界モデルとしても機能する。
しかし、世界モデルは一般的な世界シミュレータとして評価されるか、エージェントの機能モジュールとして評価される。
本研究では,LLMを用いた世界モデルの包括的評価を意思決定の観点から提案する。
具体的には、31の多様な環境(Wang et al , 2023;2024)を活用し、各環境のルールベースのポリシーを、多様な評価のためにキュレートする。
そして,政策検証,行動提案,政策計画という3つの主要なタスクを設計する。
最後に,GPT-4o と GPT-4o-mini という高度な LLM を,様々な環境下での3つの主要なタスクの環境上で総合的に評価する。
主な観察は以下のとおりである。
i) GPT-4oは、3つの主要なタスク、特にドメイン知識を必要とするタスクにおいて、GPT-4o-miniを著しく上回ります。
二 LLMによる世界モデルの性能は、長期的な意思決定作業において低下する。
三 世界モデルの異なる機能の組み合わせにより、さらなる性能の不安定が生じる。
関連論文リスト
- On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Grounding Large Language Models In Embodied Environment With Imperfect World Models [8.182450558534198]
大きな言語モデル(LLM)は、基本的な物理的推論やロボティクスタスクの実行でしばしば混乱する。
We propose a Grounding Large Language model with Imperfect world MOdel (GLIMO)。
GLIMOはLLMエージェントベースのデータジェネレータを組み込んで、高品質で多様な命令データセットを自動生成する。
論文 参考訳(メタデータ) (2024-10-03T17:55:09Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。
我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文 参考訳(メタデータ) (2024-09-18T19:28:04Z) - Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models [6.860460230412773]
移動体エージェントのためのLLM方式の経路計画フレームワークを提案する。
提案する多層アーキテクチャは,経路計画段階におけるLPMを用いて,移動エージェントの低レベルアクチュエータと統合する。
本実験により,LLMの2次元平面推論能力と完全カバレッジパス計画タスクを改善することができることが示された。
論文 参考訳(メタデータ) (2024-07-02T12:38:46Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。
本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。
MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-09-30T00:10:14Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。