論文の概要: Understanding World or Predicting Future? A Comprehensive Survey of World Models
- arxiv url: http://arxiv.org/abs/2411.14499v1
- Date: Thu, 21 Nov 2024 03:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:40.673602
- Title: Understanding World or Predicting Future? A Comprehensive Survey of World Models
- Title(参考訳): 世界を理解するか未来を予測するか : 世界モデルに関する総合的な調査
- Authors: Jingtao Ding, Yunke Zhang, Yu Shang, Yuheng Zhang, Zefang Zong, Jie Feng, Yuan Yuan, Hongyuan Su, Nian Li, Nicholas Sukiennik, Fengli Xu, Yong Li,
- Abstract要約: この調査は、世界モデルに関する文献の総合的なレビューを提供する。
世界モデルは、世界の現在の状態を理解したり、将来のダイナミクスを予測するためのツールとみなされている。
我々は、自律運転、ロボット工学、社会シミュラクラなど、主要な領域における世界モデルの適用について検討する。
- 参考スコア(独自算出の注目度): 21.96900555014452
- License:
- Abstract: The concept of world models has garnered significant attention due to advancements in multimodal large language models such as GPT-4 and video generation models such as Sora, which are central to the pursuit of artificial general intelligence. This survey offers a comprehensive review of the literature on world models. Generally, world models are regarded as tools for either understanding the present state of the world or predicting its future dynamics. This review presents a systematic categorization of world models, emphasizing two primary functions: (1) constructing internal representations to understand the mechanisms of the world, and (2) predicting future states to simulate and guide decision-making. Initially, we examine the current progress in these two categories. We then explore the application of world models in key domains, including autonomous driving, robotics, and social simulacra, with a focus on how each domain utilizes these aspects. Finally, we outline key challenges and provide insights into potential future research directions.
- Abstract(参考訳): 世界モデルの概念は、GPT-4のような多モーダルな言語モデルや、人工知能の追求の中心となるSoraのようなビデオ生成モデルの発展により、大きな注目を集めている。
この調査は、世界モデルに関する文献の総合的なレビューを提供する。
一般に、世界モデルは世界の現在の状態を理解したり、将来のダイナミクスを予測するためのツールとみなされる。
本稿では,(1)世界のメカニズムを理解するために内部表現を構築すること,(2)意思決定をシミュレートし指導する将来の状態を予測すること,の2つの主要な機能を強調し,世界モデルの体系的な分類について述べる。
当初、これらの2つのカテゴリの現在の進捗について検討した。
次に、各ドメインがこれらの側面をどのように利用するかに焦点を当て、自律運転、ロボット工学、社会シミュラクラを含む主要なドメインにおける世界モデルの適用について検討する。
最後に、重要な課題を概説し、今後の研究方向性についての洞察を提供する。
関連論文リスト
- Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。
我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文 参考訳(メタデータ) (2024-09-18T19:28:04Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - Learning World Models With Hierarchical Temporal Abstractions: A Probabilistic Perspective [2.61072980439312]
内部世界モデルを開発するためのフォーマリズムの開発は、人工知能と機械学習の分野における重要な研究課題である。
この論文は、状態空間モデルを内部世界モデルとして広く用いられることによるいくつかの制限を識別する。
形式主義におけるモデルの構造は、信念の伝播を用いた正確な確率的推論を促進するとともに、時間を通してのバックプロパゲーションによるエンドツーエンドの学習を促進する。
これらの形式主義は、世界の状態における不確実性の概念を統合し、現実世界の性質をエミュレートし、その予測の信頼性を定量化する能力を向上させる。
論文 参考訳(メタデータ) (2024-04-24T12:41:04Z) - World Models for Autonomous Driving: An Initial Survey [16.448614804069674]
将来の出来事を正確に予測し、その影響を評価する能力は、安全性と効率の両方において最重要である。
世界モデルは変革的なアプローチとして現れており、自律運転システムは大量のセンサーデータを合成し、解釈することができる。
本稿では,自律運転における世界モデルの現状と今後の展開について概説する。
論文 参考訳(メタデータ) (2024-03-05T03:23:55Z) - Open-world Machine Learning: A Review and New Outlooks [83.6401132743407]
本稿では,新たなオープンワールド機械学習パラダイムを包括的に紹介することを目的としている。
研究者がそれぞれの分野でより強力なAIシステムを構築するのを支援し、人工知能の開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-03-04T06:25:26Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。