論文の概要: OmniNWM: Omniscient Driving Navigation World Models
- arxiv url: http://arxiv.org/abs/2510.18313v1
- Date: Tue, 21 Oct 2025 05:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.934229
- Title: OmniNWM: Omniscient Driving Navigation World Models
- Title(参考訳): OmniNWM: 見事なナビゲーションワールドモデル
- Authors: Bohan Li, Zhuang Ma, Dalong Du, Baorui Peng, Zhujin Liang, Zhenqiang Liu, Chao Ma, Yueming Jin, Hao Zhao, Wenjun Zeng, Xin Jin,
- Abstract要約: 統合されたフレームワーク内の3次元すべてに対処するパノラマナビゲーションワールドモデルであるOmniNWMを紹介する。
例えば、OmniNWMは、RGB、セマンティクス、メートル法深度、および3D占有度のパノラマ動画を共同で生成する。
動作のために、入力軌跡をピクセルレベルの信号にエンコードする正規化パノラマPlucker線地図表現を導入する。
- 参考スコア(独自算出の注目度): 41.681741324622735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving world models are expected to work effectively across three core dimensions: state, action, and reward. Existing models, however, are typically restricted to limited state modalities, short video sequences, imprecise action control, and a lack of reward awareness. In this paper, we introduce OmniNWM, an omniscient panoramic navigation world model that addresses all three dimensions within a unified framework. For state, OmniNWM jointly generates panoramic videos of RGB, semantics, metric depth, and 3D occupancy. A flexible forcing strategy enables high-quality long-horizon auto-regressive generation. For action, we introduce a normalized panoramic Plucker ray-map representation that encodes input trajectories into pixel-level signals, enabling highly precise and generalizable control over panoramic video generation. Regarding reward, we move beyond learning reward functions with external image-based models: instead, we leverage the generated 3D occupancy to directly define rule-based dense rewards for driving compliance and safety. Extensive experiments demonstrate that OmniNWM achieves state-of-the-art performance in video generation, control accuracy, and long-horizon stability, while providing a reliable closed-loop evaluation framework through occupancy-grounded rewards. Project page is available at https://github.com/Arlo0o/OmniNWM.
- Abstract(参考訳): 自律運転の世界モデルは、状態、行動、報酬の3つの中核領域で効果的に機能することが期待されている。
しかし、既存のモデルは通常、限られた状態のモダリティ、短いビデオシーケンス、不正確なアクション制御、報酬意識の欠如に制限されている。
本稿では,オムニNWMについて紹介する。オムニNWMはオムニNWM,オムニNWM,オムニNWM,オムニNWM,オムニNWM,オムニNWM,オムニNWM,オムニNWM,オムニNWM,オムニNWM,オムニNWM,オムニNWM,オムニアン・パノラマ的ナビゲーション・ワールド・モデルである。
例えば、OmniNWMは、RGB、セマンティクス、メートル法深度、および3D占有度のパノラマ動画を共同で生成する。
フレキシブルな強制戦略により、高品質な長距離自動回帰生成が可能となる。
本研究では,パノラマ画像生成の高精度かつ汎用的な制御を実現するために,画素レベルの信号に入力軌跡を符号化する正規化パノラマ線地図表現を提案する。
報酬に関して、私たちは、外部画像ベースモデルによる報酬関数の学習を超えて、生成した3D占有力を活用して、コンプライアンスと安全性を駆動するためのルールベースの高密度報酬を直接定義します。
大規模な実験により,OmniNWMは映像生成,制御精度,長時間水平安定性の両立を実現し,また,占有型報酬による信頼性の高いクローズドループ評価フレームワークを提供する。
プロジェクトページはhttps://github.com/Arlo0o/OmniNWM.comで公開されている。
関連論文リスト
- RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - Matrix-3D: Omnidirectional Explorable 3D World Generation [20.568791715708134]
広視野全方位3次元世界生成のためのパノラマ表現を利用するフレームワークMatrix-3Dを提案する。
まず,シーンメッシュレンダリングを条件として,軌跡誘導パノラマ動画拡散モデルを訓練する。
本研究では, パノラマシーン映像を3次元世界へ持ち上げるために, (1) 高速3次元シーン再構成のためのフィードフォワード大パノラマ再構成モデル, (2) 正確かつ詳細な3次元シーン再構成のための最適化ベースパイプラインの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-11T15:29:57Z) - DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT [33.943125216555316]
我々は、自動運転のためのGPTスタイルの世界モデルであるDrivingWorldを紹介する。
本稿では,連続フレーム間の時間的コヒーレンスをモデル化する次世代予測手法を提案する。
また,長期ドリフト問題を軽減するため,トークン予測のための新しいマスキング戦略と再重み付け戦略を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:44:07Z) - InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文 参考訳(メタデータ) (2024-12-05T07:32:20Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
MagicDrive3Dは、コントロール可能な3Dストリートシーン生成のための新しいフレームワークである。
ロードマップ、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。
多様な高品質な3Dドライビングシーンを生成し、任意のビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - Tracking Everything Everywhere All at Once [111.00807055441028]
ビデオシーケンスから高密度及び長距離運動を推定するための新しいテスト時間最適化法を提案する。
我々はOmniMotionと呼ばれる完全で一貫した動作表現を提案する。
提案手法は,従来の最先端手法よりも定量的にも定性的にも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-06-08T17:59:29Z) - Persistent Nature: A Generative Model of Unbounded 3D Worlds [74.51149070418002]
任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。
この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。
提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
論文 参考訳(メタデータ) (2023-03-23T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。