Fugu-MT 論文翻訳(概要): Evaluating World Models with LLM for Decision Making

論文の概要: Evaluating World Models with LLM for Decision Making

arxiv url: http://arxiv.org/abs/2411.08794v1
Date: Wed, 13 Nov 2024 17:19:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.38406
Title: Evaluating World Models with LLM for Decision Making
Title（参考訳）: 意思決定のためのLLMを用いた世界モデルの評価
Authors: Chang Yang, Xinrun Wang, Junzhe Jiang, Qinggang Zhang, Xiao Huang,
Abstract要約: 世界モデルは意思決定において重要なモジュールとして登場し、MuZeroとDreamerは複雑なタスクで驚くべき成功を収めた。最近の研究は、Large Language Models (LLM) を一般世界のシミュレータとして活用し、その一般化性から世界のダイナミクスをシミュレートしている。本研究は,LLMを用いた世界モデルの包括的評価を意思決定の観点から提案する。
参考スコア（独自算出の注目度）: 14.029514959117067
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: World model emerges as a key module in decision making, where MuZero and Dreamer achieve remarkable successes in complex tasks. Recent work leverages Large Language Models (LLMs) as general world simulators to simulate the dynamics of the world due to their generalizability. LLMs also serve as the world model for deliberative reasoning in Reasoning via Planning (RAP) and Tree of Thought (ToT). However, the world models are either evaluated as a general world simulator, or as a functional module of the agent, i.e., predicting the transitions to assist the planning. In this work, we propose a comprehensive evaluation of the world models with LLMs from the decision making perspective. Specifically, we leverage the 31 diverse environments from (Wang et al., 2023;2024) and curate the rule-based policy of each environment for the diverse evaluation. Then, we design three main tasks, i.e., policy verification, action proposal, and policy planning, where the world models can be used for decision making solely. Finally, we conduct the comprehensive evaluation of the advanced LLMs, i.e., GPT-4o and GPT-4o-mini, on the environments for the three main tasks under various settings. The key observations include: i) GPT-4o significantly outperforms GPT-4o-mini on the three main tasks, especially for the tasks which require the domain knowledge, ii) the performance of the world model with LLM will be decreased for long-term decision-making tasks, and iii) the combination of different functionalities of the world model will brings additional unstabilities of the performance.
Abstract（参考訳）: 世界モデルは意思決定において重要なモジュールとして登場し、MuZeroとDreamerは複雑なタスクで驚くべき成功を収めた。最近の研究は、Large Language Models (LLM) を一般世界のシミュレータとして活用し、その一般化性から世界のダイナミクスをシミュレートしている。 LLMは、Reasoning via Planning (RAP) や Tree of Thought (ToT) の議論的推論の世界モデルとしても機能する。しかし、世界モデルは一般的な世界シミュレータとして評価されるか、エージェントの機能モジュールとして評価される。本研究では,LLMを用いた世界モデルの包括的評価を意思決定の観点から提案する。具体的には、31の多様な環境(Wang et al , 2023;2024)を活用し、各環境のルールベースのポリシーを、多様な評価のためにキュレートする。そして,政策検証,行動提案,政策計画という3つの主要なタスクを設計する。最後に,GPT-4o と GPT-4o-mini という高度な LLM を,様々な環境下での3つの主要なタスクの環境上で総合的に評価する。主な観察は以下のとおりである。 i) GPT-4oは、3つの主要なタスク、特にドメイン知識を必要とするタスクにおいて、GPT-4o-miniを著しく上回ります。二 LLMによる世界モデルの性能は、長期的な意思決定作業において低下する。三世界モデルの異なる機能の組み合わせにより、さらなる性能の不安定が生じる。

関連論文リスト

PilotRL: Training Language Model Agents via Global Planning-Guided Progressive Reinforcement Learning [36.051921179063264]
大規模言語モデル(LLM)はエージェント指向タスクの処理において顕著な進歩を見せている。現在のアプローチは主に教師付き微調整に依存しており、しばしばモデルが確立されたタスク完了軌跡を記憶させる。適応的グローバルプランベースエージェントパラダイムであるAdaPlanを導入する。
論文参考訳（メタデータ） (2025-08-01T06:17:11Z)
SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model [88.04128601981145]
汎用エージェント推論のための目標指向アーキテクチャであるSimuRAを紹介する。モデルネームは、シミュレーションによる計画のための世界モデルを導入することで、自己回帰推論の限界を克服する。特に、ワールドモデルベースのプランニングは、自己回帰プランニングよりも最大124%の一貫性のあるアドバンテージを示している。
論文参考訳（メタデータ） (2025-07-31T17:57:20Z)
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文参考訳（メタデータ） (2025-06-27T03:24:29Z)
WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文参考訳（メタデータ） (2025-06-04T18:22:40Z)
AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。 EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文参考訳（メタデータ） (2024-12-05T18:57:23Z)
PIANIST: Learning Partially Observable World Models with LLMs for Multi-Agent Decision Making [30.46033960436517]
本研究では,世界モデルを7つの直感的なコンポーネントに分解するフレームワークPIANISTを提案する。提案手法はエージェントの計画と意思決定のスキルに挑戦する2つの異なるゲームでうまく機能することを示す。
論文参考訳（メタデータ） (2024-11-24T22:36:34Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文参考訳（メタデータ） (2024-09-30T03:58:43Z)
Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文参考訳（メタデータ） (2024-09-18T19:28:04Z)
Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models [6.860460230412773]
移動体エージェントのためのLLM方式の経路計画フレームワークを提案する。提案する多層アーキテクチャは,経路計画段階におけるLPMを用いて,移動エージェントの低レベルアクチュエータと統合する。本実験により,LLMの2次元平面推論能力と完全カバレッジパス計画タスクを改善することができることが示された。
論文参考訳（メタデータ） (2024-07-02T12:38:46Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。 WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文参考訳（メタデータ） (2024-04-28T14:42:02Z)
EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。 EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文参考訳（メタデータ） (2023-12-11T03:35:58Z)
Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。 MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-09-30T00:10:14Z)
AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文参考訳（メタデータ） (2023-05-26T05:52:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。