論文の概要: From Masks to Worlds: A Hitchhiker's Guide to World Models
- arxiv url: http://arxiv.org/abs/2510.20668v1
- Date: Thu, 23 Oct 2025 15:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.248529
- Title: From Masks to Worlds: A Hitchhiker's Guide to World Models
- Title(参考訳): マスクから世界へ:Hitchhiker's Guide to World Models
- Authors: Jinbin Bai, Yu Lei, Hecong Wu, Yuchen Zhu, Shufan Li, Yi Xin, Xiangtai Li, Molei Tao, Aditya Grover, Ming-Hsuan Yang,
- Abstract要約: これは世界模型の典型的な調査ではなく、世界を築きたい人々のためのガイドである。
「我々は、世界モデルに言及したすべての論文をカタログ化しようとはしない。」
- 参考スコア(独自算出の注目度): 97.94109752910457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is not a typical survey of world models; it is a guide for those who want to build worlds. We do not aim to catalog every paper that has ever mentioned a ``world model". Instead, we follow one clear road: from early masked models that unified representation learning across modalities, to unified architectures that share a single paradigm, then to interactive generative models that close the action-perception loop, and finally to memory-augmented systems that sustain consistent worlds over time. We bypass loosely related branches to focus on the core: the generative heart, the interactive loop, and the memory system. We show that this is the most promising path towards true world models.
- Abstract(参考訳): これは世界模型の典型的な調査ではなく、世界を築きたい人々のためのガイドである。
私たちは、『世界モデル』に言及したすべての論文をカタログ化しようとはしていません。
モダリティを越えた表現学習を統一する初期のマスク付きモデルから、単一のパラダイムを共有する統一アーキテクチャ、アクション知覚ループを閉じるインタラクティブな生成モデル、そして時間の経過とともに一貫した世界を維持するメモリ拡張システムまで。
生成心臓、インタラクティブループ、メモリシステムといった、ゆるやかな関係のブランチをバイパスしてコアにフォーカスします。
これは、真の世界モデルへの最も有望な道であることを示す。
関連論文リスト
- Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - PoE-World: Compositional World Modeling with Products of Programmatic Experts [50.35012247866856]
世界がどのように機能するかを学ぶことは、複雑な環境に適応できるAIエージェントの構築の中心である。
LLM(Large Language Models)を用いたプログラム合成の最近の進歩は、ソースコードとして表現された世界モデルを学ぶための代替アプローチを提供する。
このアプローチは,数個の観測結果から複雑な世界モデルを学習できることを示し,これらをモデルベース計画エージェントに組み込むことで,AtariのPongとMontezumaのRevengeの未確認レベルに対する効率的な性能と一般化を実証する。
論文 参考訳(メタデータ) (2025-05-16T03:28:42Z) - Pandora: Towards General World Model with Natural Language Actions and Video States [61.30962762314734]
Pandoraは、ビデオを生成して世界状態をシミュレートし、自由テキストアクションによるリアルタイム制御を可能にするハイブリッド自動回帰拡散モデルである。
Pandoraは、大規模な事前トレーニングと命令チューニングを通じて、ドメインの汎用性、ビデオの一貫性、制御性を実現する。
論文 参考訳(メタデータ) (2024-06-12T18:55:51Z) - Evaluating the World Model Implicit in a Generative Model [7.317896355747284]
最近の研究は、大きな言語モデルが暗黙的に世界モデルを学ぶことを示唆している。
これには、単純な論理的推論、地理的ナビゲーション、ゲームプレイング、化学といった問題が含まれる。
我々は,古典的なマイヒル・ネローデ定理に触発された世界モデル回復のための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-06T02:20:31Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens [75.02160668328425]
本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
論文 参考訳(メタデータ) (2024-01-18T14:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。