論文の概要: Seeing the Future, Perceiving the Future: A Unified Driving World Model for Future Generation and Perception
- arxiv url: http://arxiv.org/abs/2503.13587v1
- Date: Mon, 17 Mar 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:26.715269
- Title: Seeing the Future, Perceiving the Future: A Unified Driving World Model for Future Generation and Perception
- Title(参考訳): 未来を見る, 未来を理解する: 未来と知覚のための統一運転世界モデル
- Authors: Dingkang Liang, Dingyuan Zhang, Xin Zhou, Sifan Tu, Tianrui Feng, Xiaofan Li, Yumeng Zhang, Mingyang Du, Xiao Tan, Xiang Bai,
- Abstract要約: 将来的なシーン生成と認識をシームレスに単一のフレームワークに統合する,運転世界モデルUniFutureを提案する。
我々のアプローチは、将来の外観(すなわちRGB画像)と幾何学(すなわち深さ)を共同でモデル化し、コヒーレントな予測を保証する。
- 参考スコア(独自算出の注目度): 47.65526944865586
- License:
- Abstract: We present UniFuture, a simple yet effective driving world model that seamlessly integrates future scene generation and perception within a single framework. Unlike existing models focusing solely on pixel-level future prediction or geometric reasoning, our approach jointly models future appearance (i.e., RGB image) and geometry (i.e., depth), ensuring coherent predictions. Specifically, during the training, we first introduce a Dual-Latent Sharing scheme, which transfers image and depth sequence in a shared latent space, allowing both modalities to benefit from shared feature learning. Additionally, we propose a Multi-scale Latent Interaction mechanism, which facilitates bidirectional refinement between image and depth features at multiple spatial scales, effectively enhancing geometry consistency and perceptual alignment. During testing, our UniFuture can easily predict high-consistency future image-depth pairs by only using the current image as input. Extensive experiments on the nuScenes dataset demonstrate that UniFuture outperforms specialized models on future generation and perception tasks, highlighting the advantages of a unified, structurally-aware world model. The project page is at https://github.com/dk-liang/UniFuture.
- Abstract(参考訳): UniFutureは、単一のフレームワーク内で将来のシーン生成と知覚をシームレスに統合する、シンプルで効果的な駆動世界モデルである。
画素レベルの将来の予測や幾何学的推論に焦点をあてた既存のモデルとは異なり、我々のアプローチは将来の外観(RGB画像)と幾何学(深さ)を共同でモデル化し、コヒーレントな予測を保証する。
具体的には、トレーニング中、まずDual-Latent Sharingスキームを導入し、画像と深度シーケンスを共有潜在空間で転送し、両モードが共有特徴学習の恩恵を受けるようにする。
さらに,複数の空間スケールにおける画像特徴と深度特徴の双方向化を容易にし,幾何学的整合性と知覚的アライメントを効果的に向上するマルチスケールラテントインタラクション機構を提案する。
テスト中、我々のUniFutureは現在の画像のみを入力として使用することで、高一貫性の将来の画像深度ペアを容易に予測できる。
nuScenesデータセットに関する大規模な実験は、UniFutureが将来の世代と知覚タスクの特殊モデルより優れており、統一された構造的に認識された世界モデルの利点を強調していることを示している。
プロジェクトのページはhttps://github.com/dk-liang/UniFuture.comにある。
関連論文リスト
- Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Visual Representation Learning with Stochastic Frame Prediction [90.99577838303297]
本稿では,フレーム予測における不確実性を捉えることを学ぶ映像生成の考え方を再考する。
フレーム間の時間情報を学習するためのフレーム予測モデルを訓練するフレームワークを設計する。
このアーキテクチャは、両目的を相乗的かつ計算効率のよい方法で組み合わせることができる。
論文 参考訳(メタデータ) (2024-06-11T16:05:15Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z) - Multimodal Future Localization and Emergence Prediction for Objects in
Egocentric View with a Reachability Prior [36.80686175878314]
移動車の観点から,将来の動態,特に他の車両や歩行者の将来の位置を予想する問題について検討する。
本研究では,現在画像のセマンティックマップから対象の特定のクラスに先行する到達可能性を推定し,計画されたエゴモーションを用いて未来へ伝播する。
実験により, 複数仮説学習と組み合わせた到達性により, 追跡対象の将来の位置のマルチモーダル予測が向上し, 新たな対象が出現した。
論文 参考訳(メタデータ) (2020-06-08T15:57:26Z) - Probabilistic Future Prediction for Video Scene Understanding [11.236856606065514]
本稿では,ビデオからの確率論的未来予測のための新しいディープラーニングアーキテクチャを提案する。
我々は、未来の意味論、複雑な現実世界の都市シーンの動きを予測し、この表現を使って自動運転車を制御する。
論文 参考訳(メタデータ) (2020-03-13T17:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。