論文の概要: Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
- arxiv url: http://arxiv.org/abs/2604.22748v1
- Date: Fri, 24 Apr 2026 17:48:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.549007
- Title: Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
- Title(参考訳): エージェント・ワールド・モデリング - 基礎、能力、法則など
- Authors: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia,
- Abstract要約: 2つの軸に沿って組織された「レベルx法」の分類を導入します。
第一に、3つの能力レベルを定義している: 1段階の局所遷移演算子を学ぶL1 Predictor、それらをドメインの法則を尊重する多段階のアクション条件付きロールアウトに構成するL2 Simulator、新しいエビデンスに対して予測が失敗すると自己のモデルを自動で修正するL3 Evolver。
我々は400以上の作品を合成し、モデルに基づく強化学習、ビデオ生成、WebおよびGUIエージェント、マルチエージェント社会シミュレーション、AIによる科学的発見にまたがる100以上の代表システムを要約する。
- 参考スコア(独自算出の注目度): 209.35045331678043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.
- Abstract(参考訳): AIシステムは、持続的なインタラクションを通じて、テキスト生成から目標達成への移行によって、環境ダイナミクスをモデル化する能力が中心的なボトルネックとなる。
オブジェクトを操作したり、ソフトウェアをナビゲートしたり、他者と調整したり、設計実験を行うエージェントは予測環境モデルを必要とするが、世界モデルという用語は研究コミュニティ全体で異なる意味を持つ。
2つの軸に沿って組織された「レベルx法」の分類を導入します。
1つは、ワンステップの局所遷移演算子を学習するL1 Predictorと、ドメイン法を尊重するマルチステップのアクション条件付きロールアウトを構成するL2 Simulatorと、新しいエビデンスに対して予測が失敗すると、独自のモデルを自律的に修正するL3 Evolverである。
2つ目は、物理、デジタル、社会、科学の4つの法則を定めている。
これらの体制は、世界モデルが満たすべき制約と、最も失敗しそうな場所を決定する。
このフレームワークを用いて400以上の作品を合成し、モデルに基づく強化学習、ビデオ生成、WebおよびGUIエージェント、マルチエージェント社会シミュレーション、AIによる科学的発見にまたがる100以上の代表システムを要約する。
我々は、レベル登録ペア間の方法、障害モード、評価プラクティスを分析し、意思決定中心の評価原則と最小限の再現可能な評価パッケージを提案し、アーキテクチャガイダンス、オープン問題、ガバナンス課題の概要を説明します。
結果として得られたロードマップは、これまで孤立していたコミュニティを結びつけ、エージェントが動作する環境をシミュレートし、最終的に再形成できる世界モデルへの受動的次のステップ予測への道をグラフ化する。
関連論文リスト
- Telecom World Models: Unifying Digital Twins, Foundation Models, and Predictive Planning for 6G [60.29349053952935]
本稿では,テレコムシステムダイナミクスの学習,行動条件,不確実性を考慮したモデリングのためのアーキテクチャであるTWM(Telecom World Model)の概念を紹介する。
本研究では,空間環境予測のためのフィールドワールドモデル,動作条件付きキーパフォーマンス指標(KPI)軌道予測のための制御/力学ワールドモデル,意図翻訳とオーケストレーションのための通信基盤モデルレイヤからなる3層アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-04-08T09:41:58Z) - ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - Foundation World Models for Agents that Learn, Verify, and Adapt Reliably Beyond Static Environments [3.282750994783201]
次世代の自律エージェントは、効率的に学習するだけでなく、確実に行動し、オープンな世界で行動に適応する必要がある。
本稿では, 強化学習, 反応性/合成合成, 抽象メカニズムを統一する, 永続的, 構成的表現という, 基礎世界モデルに対するビジョンを概説する。
i) 明確な目的を持った最適化を支援するために仕様から学習可能な報酬モデル、(ii) 学習を通しての適応的な形式的検証、(iii) モデルの予測の信頼性を定量化するためのオンライン抽象化キャリブレーション、(iv) 検証者によって導かれるテスト時合成と世界モデル生成の4つの要素を中心に構築されたアジェンダを提案する。
論文 参考訳(メタデータ) (2026-02-27T13:20:46Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - From system models to class models: An in-context learning paradigm [0.0]
本稿では,1段階の予測と複数段階のシミュレーションという2つの主要な課題に対処する,システム識別のための新しいパラダイムを提案する。
動的システムのクラスを表すメタモデルを学ぶ。
一段階の予測では、GPTのようなデコーダのみのアーキテクチャを使用し、シミュレーション問題ではエンコーダ-デコーダ構造を用いる。
論文 参考訳(メタデータ) (2023-08-25T13:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。