論文の概要: PoE-World: Compositional World Modeling with Products of Programmatic Experts
- arxiv url: http://arxiv.org/abs/2505.10819v2
- Date: Thu, 22 May 2025 09:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 12:25:14.97965
- Title: PoE-World: Compositional World Modeling with Products of Programmatic Experts
- Title(参考訳): PoE-World: プログラムエキスパートのプロダクトによる構成的世界モデリング
- Authors: Wasu Top Piriyakulkij, Yichao Liang, Hao Tang, Adrian Weller, Marta Kryven, Kevin Ellis,
- Abstract要約: 世界がどのように機能するかを学ぶことは、複雑な環境に適応できるAIエージェントの構築の中心である。
LLM(Large Language Models)を用いたプログラム合成の最近の進歩は、ソースコードとして表現された世界モデルを学ぶための代替アプローチを提供する。
このアプローチは,数個の観測結果から複雑な世界モデルを学習できることを示し,これらをモデルベース計画エージェントに組み込むことで,AtariのPongとMontezumaのRevengeの未確認レベルに対する効率的な性能と一般化を実証する。
- 参考スコア(独自算出の注目度): 41.07916209987106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning how the world works is central to building AI agents that can adapt to complex environments. Traditional world models based on deep learning demand vast amounts of training data, and do not flexibly update their knowledge from sparse observations. Recent advances in program synthesis using Large Language Models (LLMs) give an alternate approach which learns world models represented as source code, supporting strong generalization from little data. To date, application of program-structured world models remains limited to natural language and grid-world domains. We introduce a novel program synthesis method for effectively modeling complex, non-gridworld domains by representing a world model as an exponentially-weighted product of programmatic experts (PoE-World) synthesized by LLMs. We show that this approach can learn complex, stochastic world models from just a few observations. We evaluate the learned world models by embedding them in a model-based planning agent, demonstrating efficient performance and generalization to unseen levels on Atari's Pong and Montezuma's Revenge. We release our code and display the learned world models and videos of the agent's gameplay at https://topwasu.github.io/poe-world.
- Abstract(参考訳): 世界がどのように機能するかを学ぶことは、複雑な環境に適応できるAIエージェントの構築の中心である。
ディープラーニングに基づく伝統的な世界モデルは、膨大な量のトレーニングデータを必要とし、スパース観測から知識を柔軟に更新しない。
LLM(Large Language Models)を用いたプログラム合成の最近の進歩は、ソースコードとして表される世界モデルを学ぶための代替アプローチを提供し、小さなデータから強力な一般化をサポートする。
現在まで、プログラム構造化世界モデルの応用は、自然言語とグリッドワールドドメインに限られている。
LLMによって合成されたプログラムエキスパート(PoE-World)の指数関数的に重み付けされた積として世界モデルを表現し、複雑な非グリッドワールド領域を効果的にモデル化する新しいプログラム合成手法を提案する。
このアプローチは、ほんの少しの観察結果から、複雑で確率的な世界モデルを学ぶことができることを示す。
AtariのPongやMontezumaのRevengeでは,学習された世界モデルをモデルベースプランニングエージェントに組み込んで評価し,効率のよい性能と一般化を実証した。
コードを公開し、学習したエージェントのゲームプレイのモデルとビデオをhttps://topwasu.github.io/poe-world.comで公開します。
関連論文リスト
- AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Multimodal Dreaming: A Global Workspace Approach to World Model-Based Reinforcement Learning [2.5749046466046903]
強化学習(Reinforcement Learning, RL)では、世界モデルはエージェントの行動に応じて環境がどのように進化するかを捉えることを目的としている。
潜在空間内での夢のプロセスの実行は、より少ない環境ステップでのトレーニングを可能にすることを示す。
我々は、GWとWorld Modelsの組み合わせは、RLエージェントの意思決定を改善する大きな可能性を秘めていると結論づける。
論文 参考訳(メタデータ) (2025-02-28T15:24:17Z) - Text2World: Benchmarking Large Language Models for Symbolic World Model Generation [45.03755994315517]
ドメイン定義言語(PDDL)に基づいた新しいベンチマークであるText2Worldを導入する。
大規模強化学習で訓練された推論モデルは、他よりも優れていることがわかった。
これらの知見に基づいて,LLMの世界モデリング能力を高めるためのいくつかの有望な戦略について検討する。
論文 参考訳(メタデータ) (2025-02-18T17:59:48Z) - Pandora: Towards General World Model with Natural Language Actions and Video States [61.30962762314734]
Pandoraは、ビデオを生成して世界状態をシミュレートし、自由テキストアクションによるリアルタイム制御を可能にするハイブリッド自動回帰拡散モデルである。
Pandoraは、大規模な事前トレーニングと命令チューニングを通じて、ドメインの汎用性、ビデオの一貫性、制御性を実現する。
論文 参考訳(メタデータ) (2024-06-12T18:55:51Z) - Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。
EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。
すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文 参考訳(メタデータ) (2024-05-15T17:19:42Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - WorldCoder, a Model-Based LLM Agent: Building World Models by Writing Code and Interacting with the Environment [11.81398773711566]
我々は,環境とのインタラクションに基づいて,世界の知識を表現したPythonプログラムを構築するモデルベースエージェントを提案する。
我々は,グリッドワールド,タスクプランニングにおいて,我々のアプローチは深層RLに比べてサンプリング効率が良く,ReActスタイルのエージェントよりも計算効率が良く,コードを編集することで,その知識を環境間で伝達することができることを研究した。
論文 参考訳(メタデータ) (2024-02-19T16:39:18Z) - WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens [75.02160668328425]
本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
論文 参考訳(メタデータ) (2024-01-18T14:01:20Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。