Fugu-MT 論文翻訳(概要): Understanding World or Predicting Future? A Comprehensive Survey of World Models

論文の概要: Understanding World or Predicting Future? A Comprehensive Survey of World Models

arxiv url: http://arxiv.org/abs/2411.14499v1
Date: Thu, 21 Nov 2024 03:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.979834
Title: Understanding World or Predicting Future? A Comprehensive Survey of World Models
Title（参考訳）: 世界を理解するか未来を予測するか : 世界モデルに関する総合的な調査
Authors: Jingtao Ding, Yunke Zhang, Yu Shang, Yuheng Zhang, Zefang Zong, Jie Feng, Yuan Yuan, Hongyuan Su, Nian Li, Nicholas Sukiennik, Fengli Xu, Yong Li,
Abstract要約: この調査は、世界モデルに関する文献の総合的なレビューを提供する。世界モデルは、世界の現在の状態を理解したり、将来のダイナミクスを予測するためのツールとみなされている。我々は、自律運転、ロボット工学、社会シミュラクラなど、主要な領域における世界モデルの適用について検討する。
参考スコア（独自算出の注目度）: 21.96900555014452
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The concept of world models has garnered significant attention due to advancements in multimodal large language models such as GPT-4 and video generation models such as Sora, which are central to the pursuit of artificial general intelligence. This survey offers a comprehensive review of the literature on world models. Generally, world models are regarded as tools for either understanding the present state of the world or predicting its future dynamics. This review presents a systematic categorization of world models, emphasizing two primary functions: (1) constructing internal representations to understand the mechanisms of the world, and (2) predicting future states to simulate and guide decision-making. Initially, we examine the current progress in these two categories. We then explore the application of world models in key domains, including autonomous driving, robotics, and social simulacra, with a focus on how each domain utilizes these aspects. Finally, we outline key challenges and provide insights into potential future research directions.
Abstract（参考訳）: 世界モデルの概念は、GPT-4のような多モーダルな言語モデルや、人工知能の追求の中心となるSoraのようなビデオ生成モデルの発展により、大きな注目を集めている。この調査は、世界モデルに関する文献の総合的なレビューを提供する。一般に、世界モデルは世界の現在の状態を理解したり、将来のダイナミクスを予測するためのツールとみなされる。本稿では,(1)世界のメカニズムを理解するために内部表現を構築すること,(2)意思決定をシミュレートし指導する将来の状態を予測すること,の2つの主要な機能を強調し,世界モデルの体系的な分類について述べる。当初、これらの2つのカテゴリの現在の進捗について検討した。次に、各ドメインがこれらの側面をどのように利用するかに焦点を当て、自律運転、ロボット工学、社会シミュラクラを含む主要なドメインにおける世界モデルの適用について検討する。最後に、重要な課題を概説し、今後の研究方向性についての洞察を提供する。

関連論文リスト

Beyond World Models: Rethinking Understanding in AI Models [15.246406031450775]
世界モデルは、外界の側面をシミュレートする内部表現である。 AIモデルに類似した表現の証拠を見つけることは、これらのモデルが人間のような方法で世界を「理解」していることを示しているかもしれない。本稿では,世界モデルフレームワークが人間レベルの理解を適切に特徴付けるかどうかを批判的に検討する。
論文参考訳（メタデータ） (2025-11-15T14:45:26Z)
A Step Toward World Models: A Survey on Robotic Manipulation [58.8419978790227]
本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、完全に実現された世界モデルが持つべきコアコンポーネント、能力、機能を蒸留する。
論文参考訳（メタデータ） (2025-10-31T00:57:24Z)
A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文参考訳（メタデータ） (2025-10-19T07:12:32Z)
Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。 DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-10-01T13:07:05Z)
Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。モデル合成アーキテクチャ」という概念の計算的実装を提案する。我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文参考訳（メタデータ） (2025-07-16T18:01:03Z)
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文参考訳（メタデータ） (2025-06-27T03:24:29Z)
World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文参考訳（メタデータ） (2025-05-31T06:43:00Z)
PoE-World: Compositional World Modeling with Products of Programmatic Experts [41.07916209987106]
世界がどのように機能するかを学ぶことは、複雑な環境に適応できるAIエージェントの構築の中心である。 LLM(Large Language Models)を用いたプログラム合成の最近の進歩は、ソースコードとして表現された世界モデルを学ぶための代替アプローチを提供する。このアプローチは,数個の観測結果から複雑な世界モデルを学習できることを示し,これらをモデルベース計画エージェントに組み込むことで,AtariのPongとMontezumaのRevengeの未確認レベルに対する効率的な性能と一般化を実証する。
論文参考訳（メタデータ） (2025-05-16T03:28:42Z)
Object-Centric World Model for Language-Guided Manipulation [4.008780119020479]
エージェントが自律運転やロボット工学といった分野の将来と計画を予測するためには,世界モデルが不可欠である。本稿では,言語命令で案内されたスロットアテンションを用いて,オブジェクト中心の表現空間を活用する世界モデルを提案する。本モデルでは,オブジェクト中心の表現として現在の状態を認識し,この表現空間における将来の状態を自然言語命令で予測する。
論文参考訳（メタデータ） (2025-03-08T11:17:37Z)
Human-Centric Foundation Models: Perception, Generation and Agentic Modeling [79.97999901785772]
人間中心のファンデーションモデルは、多様な人間中心のタスクを単一のフレームワークに統合します。我々は,現在のアプローチを4つのグループに分類する分類法を提案することで,HcFMの包括的概要を示す。この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
論文参考訳（メタデータ） (2025-02-12T16:38:40Z)
A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文参考訳（メタデータ） (2025-01-20T04:00:02Z)
Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。本稿では,この2つの技術の関係について検討する。映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文参考訳（メタデータ） (2024-11-05T08:58:35Z)
Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文参考訳（メタデータ） (2024-09-18T19:28:04Z)
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している本調査では,世界モデルの最新動向を包括的に調査する。我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文参考訳（メタデータ） (2024-05-06T14:37:07Z)
Learning World Models With Hierarchical Temporal Abstractions: A Probabilistic Perspective [2.61072980439312]
内部世界モデルを開発するためのフォーマリズムの開発は、人工知能と機械学習の分野における重要な研究課題である。この論文は、状態空間モデルを内部世界モデルとして広く用いられることによるいくつかの制限を識別する。形式主義におけるモデルの構造は、信念の伝播を用いた正確な確率的推論を促進するとともに、時間を通してのバックプロパゲーションによるエンドツーエンドの学習を促進する。これらの形式主義は、世界の状態における不確実性の概念を統合し、現実世界の性質をエミュレートし、その予測の信頼性を定量化する能力を向上させる。
論文参考訳（メタデータ） (2024-04-24T12:41:04Z)
World Models for Autonomous Driving: An Initial Survey [16.448614804069674]
将来の出来事を正確に予測し、その影響を評価する能力は、安全性と効率の両方において最重要である。世界モデルは変革的なアプローチとして現れており、自律運転システムは大量のセンサーデータを合成し、解釈することができる。本稿では,自律運転における世界モデルの現状と今後の展開について概説する。
論文参考訳（メタデータ） (2024-03-05T03:23:55Z)
Open-world Machine Learning: A Review and New Outlooks [83.6401132743407]
本稿では,新たなオープンワールド機械学習パラダイムを包括的に紹介することを目的としている。研究者がそれぞれの分野でより強力なAIシステムを構築するのを支援し、人工知能の開発を促進することを目的としている。
論文参考訳（メタデータ） (2024-03-04T06:25:26Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文参考訳（メタデータ） (2023-03-07T18:44:07Z)
Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文参考訳（メタデータ） (2023-01-12T02:07:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。