論文の概要: Nano World Models: A Minimalist Implementation of Future Video Prediction
- arxiv url: http://arxiv.org/abs/2605.23993v1
- Date: Sun, 17 May 2026 22:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.446836
- Title: Nano World Models: A Minimalist Implementation of Future Video Prediction
- Title(参考訳): Nano World Models: 将来のビデオ予測のミニマリスト実装
- Authors: Siqiao Huang, Partha Kaushik, Michael Chen, Hengkai Pan, Omar Chehab, Fernando Moreno-Pino, Max Simchowitz,
- Abstract要約: Nano World Modelsは、拡散強制を中心とした将来のビデオ予測のためのミニマリストである。
コード、構成、評価スクリプト、事前訓練されたチェックポイントをリリースすることにより、Nano World Modelsは、オープンで再現性があり科学的な世界モデル研究のためのコンパクトで実験的な基盤を提供することを目指している。
- 参考スコア(独自算出の注目度): 52.36220976002044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models have become a central paradigm for learning predictive simulators that support generation, planning, and decision-making. Yet, despite rapid progress in industry-scale interactive video generation, the broader research community still lacks compact, reproducible, and easily extensible implementations for studying the design choices underlying modern world models. We introduce Nano World Models, a minimalist codebase for future video prediction centered around diffusion forcing. Nano World Models provides a unified interface for generative objectives, model scales, action-conditioning mechanisms, latent observation spaces, datasets, evaluation protocols, and long-horizon rollout procedures. This design enables controlled studies of world-modeling components that are often entangled across separate implementations. Through experiments across simple control environments, game simulation, and real-robot data, we examine how prediction parameterization, architecture scale, action injection, sampling budget, and domain complexity affect video prediction quality and autoregressive rollout behavior. By releasing code, configurations, evaluation scripts, and pretrained checkpoints, Nano World Models aims to provide a compact yet extensible experimental substrate for open, reproducible, and scientific world-model research.
- Abstract(参考訳): 世界モデルは、生成、計画、意思決定をサポートする予測シミュレーターを学ぶための中心的なパラダイムとなっている。
しかし、業界規模でのインタラクティブビデオ生成の急速な進歩にもかかわらず、幅広い研究コミュニティには、現代世界モデルの基礎となる設計選択を研究するためのコンパクトで再現性があり、容易に拡張可能な実装が欠けている。
拡散強制を中心とした将来のビデオ予測のための最小限のコードベースであるNano World Modelsを紹介する。
Nano World Modelsは、生成対象、モデルスケール、アクションコンディショニング機構、潜在観測空間、データセット、評価プロトコル、長期ロールアウト手順のための統一インターフェースを提供する。
この設計は、しばしば別々の実装間で絡み合っている世界モデリングコンポーネントの制御された研究を可能にする。
単純な制御環境,ゲームシミュレーション,実ロボットデータを対象とした実験により,予測パラメータ化,アーキテクチャスケール,アクションインジェクション,サンプリング予算,ドメインの複雑さがビデオ予測品質や自動回帰ロールアウト行動にどのように影響するかを検討した。
コード、構成、評価スクリプト、事前訓練されたチェックポイントをリリースすることにより、Nano World Modelsは、オープンで再現可能な科学的世界モデル研究のためのコンパクトで拡張可能な実験基板を提供することを目指している。
関連論文リスト
- World Model for Robot Learning: A Comprehensive Survey [168.5691568303064]
この調査は、ロボット学習の世界モデルに関する急速に成長している文献を体系的にレビューする。
本研究では,世界モデルがロボット政策とどのように結合されているか,強化学習と評価のための学習シミュレータとしてどのように機能するか,ロボットビデオワールドモデルが想像力に基づく生成から,制御可能で構造化された,基礎的規模の定式化までどのように進展してきたかを検討する。
本調査は,ロボット学習の世界モデルに関する文献を体系的にレビューし,主要なパラダイムと応用を明らかにするとともに,具体的エージェントにおける予測モデリングの大きな課題と今後の方向性を明らかにする。
論文 参考訳(メタデータ) (2026-04-30T14:35:31Z) - Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond [209.35045331678043]
2つの軸に沿って組織された「レベルx法」の分類を導入します。
第一に、3つの能力レベルを定義している: 1段階の局所遷移演算子を学ぶL1 Predictor、それらをドメインの法則を尊重する多段階のアクション条件付きロールアウトに構成するL2 Simulator、新しいエビデンスに対して予測が失敗すると自己のモデルを自動で修正するL3 Evolver。
我々は400以上の作品を合成し、モデルに基づく強化学習、ビデオ生成、WebおよびGUIエージェント、マルチエージェント社会シミュレーション、AIによる科学的発見にまたがる100以上の代表システムを要約する。
論文 参考訳(メタデータ) (2026-04-24T17:48:47Z) - stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation [46.55784222514516]
安定世界モデル(SWM)は,モジュール型,テスト型,文書化された世界モデル研究エコシステムである。
SWMは効率的なデータ収集ツール、標準化された環境、計画アルゴリズム、ベースライン実装を提供する。
DINO-WMにおけるゼロショットロバスト性の研究でSWMの有用性を実証する。
論文 参考訳(メタデータ) (2026-02-09T18:04:22Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction [57.56072009935036]
政策世界モデル(PWM)と呼ばれる新しい運転パラダイムを導入する。
PWMは、統一アーキテクチャ内での世界モデリングと軌道計画を統合する。
提案手法は,マルチビューおよびマルチモーダル入力に依存する最先端の手法に適合するか,あるいは超越する。
論文 参考訳(メタデータ) (2025-10-22T14:57:51Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。