論文の概要: Advancing Open-source World Models
- arxiv url: http://arxiv.org/abs/2601.20540v1
- Date: Wed, 28 Jan 2026 12:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.926569
- Title: Advancing Open-source World Models
- Title(参考訳): オープンソースワールドモデルの改善
- Authors: Robbyant Team, Zelin Gao, Qiuyu Wang, Yanhong Zeng, Jiapeng Zhu, Ka Leong Cheng, Yixuan Li, Hanlin Wang, Yinghao Xu, Shuailei Ma, Yihang Chen, Jie Liu, Yansong Cheng, Yao Yao, Jiayi Zhu, Yihao Meng, Kecheng Zheng, Qingyan Bai, Jingye Chen, Zehong Shen, Yue Yu, Xing Zhu, Yujun Shen, Hao Ouyang,
- Abstract要約: LingBot-World(リンク)は、ビデオ生成から派生したオープンソースのワールドシミュレータである。
広い範囲の環境において、高い忠実度と堅牢なダイナミクスを維持している。
リアルタイムの対話性をサポートし、毎秒16フレームを生成すると1秒未満のレイテンシを実現する。
- 参考スコア(独自算出の注目度): 92.17462908419326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LingBot-World, an open-sourced world simulator stemming from video generation. Positioned as a top-tier world model, LingBot-World offers the following features. (1) It maintains high fidelity and robust dynamics in a broad spectrum of environments, including realism, scientific contexts, cartoon styles, and beyond. (2) It enables a minute-level horizon while preserving contextual consistency over time, which is also known as "long-term memory". (3) It supports real-time interactivity, achieving a latency of under 1 second when producing 16 frames per second. We provide public access to the code and model in an effort to narrow the divide between open-source and closed-source technologies. We believe our release will empower the community with practical applications across areas like content creation, gaming, and robot learning.
- Abstract(参考訳): 我々は、ビデオ生成から派生したオープンソースの世界シミュレータLingBot-Worldを紹介する。
トップクラスのワールドモデルとして位置づけられているLingBot-Worldは、以下の機能を提供する。
1) 現実主義, 科学的文脈, 漫画のスタイルなど, 幅広い環境において, 高い忠実さと堅牢性を維持している。
2) 長期記憶(long-term memory)とも呼ばれる文脈整合性を維持しながら、最小レベルの水平線を可能にする。
(3) リアルタイムの対話性をサポートし,毎秒16フレームを生成する場合,1秒未満のレイテンシを実現する。
オープンソースとクローズドソースのテクノロジ間の隔たりを狭めるため、コードとモデルへのパブリックアクセスを提供しています。
われわれのリリースは、コンテンツ制作、ゲーム、ロボット学習といった分野にまたがる実践的な応用をコミュニティに与えてくれると信じている。
関連論文リスト
- Web World Models [60.208836336654315]
Web World Model (WWM) は「世界状態と物理」が通常のWebコードで実装される中核となる。
リアルなウェブスタック上にWWMのスイートを構築し、現実の地理や架空の銀河探検家、ウェブスケールの百科事典や物語の世界、シミュレーションやゲームのような環境を基盤とする無限の旅行アトラスを構築します。
この結果から,ウェブスタック自体が世界モデルのスケーラブルな基盤として機能し,制御可能かつオープンな環境を実現することが示唆された。
論文 参考訳(メタデータ) (2025-12-29T18:31:45Z) - Yume-1.5: A Text-Controlled Interactive World Generation Model [78.93049063633084]
Methodは、単一の画像やテキストプロンプトから現実的でインタラクティブで連続的な世界を生成するように設計された新しいフレームワークである。
メソッドは、キーボードベースの生成世界を探索するフレームワークを慎重に設計し、これを実現している。
論文 参考訳(メタデータ) (2025-12-26T17:52:49Z) - UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation [61.98887854225878]
私たちは、世界対応のビデオ生成のための統合フレームワークUnityVideoを紹介します。
提案手法は,(1)異種学習パラダイムを統一するための動的ノイズ化,(2)文脈内学習者によるモダリティ・スイッチャーの2つのコアコンポーネントを特徴とする。
私たちは、UnityVideoが優れたビデオ品質、一貫性、物理世界の制約との整合性を改善することを実証した。
論文 参考訳(メタデータ) (2025-12-08T18:59:01Z) - LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation [35.4193352348583]
本稿では,3D環境の産業生産パイプラインを効率化する,シンプルで効果的な3Dワールドジェネレーションフレームワークを提案する。
LatticeWorldは、競合するマルチエージェントインタラクションを特徴とする、動的エージェントを備えた大規模な3Dインタラクティブワールドを生成する。
LatticeWorldは90倍以上の工業生産効率の向上を実現している。
論文 参考訳(メタデータ) (2025-09-05T17:22:33Z) - Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model [15.16063778402193]
Matrix-Game 2.0はインタラクティブな世界モデルで、数ステップの自己回帰拡散を通じて長時間の動画をオンザフライで生成する。
超高速25FPSで、さまざまなシーンで高品質のミニレベルビデオを生成することができる。
論文 参考訳(メタデータ) (2025-08-18T15:28:53Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - Open-Sora: Democratizing Efficient Video Production for All [15.68402186082992]
高忠実度ビデオコンテンツを作成するために設計された,オープンソースのビデオ生成モデルであるOpen-Soraを開発した。
Open-Soraは、テキスト・ツー・イメージ生成、テキスト・ツー・ビデオ生成、画像・ビデオ生成など、幅広いビジュアル生成タスクをサポートしている。
オープンソース原則を受け入れることで、Open-Soraはトレーニング/推論/データ準備コードとモデルウェイトへの完全なアクセスを民主化します。
論文 参考訳(メタデータ) (2024-12-29T08:52:49Z) - WonderWorld: Interactive 3D Scene Generation from a Single Image [38.83667648993784]
我々はインタラクティブな3Dシーン生成のための新しいフレームワークWonderWorldを紹介する。
WonderWorldは、単一のA6000 GPU上で10秒未満で接続された多様な3Dシーンを生成する。
論文 参考訳(メタデータ) (2024-06-13T17:59:10Z) - Self-supervised novel 2D view synthesis of large-scale scenes with
efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。
我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。
実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-26T13:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。