論文の概要: MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction
- arxiv url: http://arxiv.org/abs/2502.11663v1
- Date: Mon, 17 Feb 2025 10:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:40.572207
- Title: MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction
- Title(参考訳): MaskGWM: ビデオマスク再構成による一般化可能な運転世界モデル
- Authors: Jingcheng Ni, Yuxin Guo, Yichen Liu, Rui Chen, Lewei Lu, Zehuan Wu,
- Abstract要約: ビデオマスク再構成を具現化した一般化可能な世界モデルであるMaskGWMを提案する。
本モデルには,長期水平予測に着目したMaskGWM-longと,マルチビュー生成専用のMaskGWM-mviewの2種類が含まれている。
- 参考スコア(独自算出の注目度): 8.503246256880612
- License:
- Abstract: World models that forecast environmental changes from actions are vital for autonomous driving models with strong generalization. The prevailing driving world model mainly build on video prediction model. Although these models can produce high-fidelity video sequences with advanced diffusion-based generator, they are constrained by their predictive duration and overall generalization capabilities. In this paper, we explore to solve this problem by combining generation loss with MAE-style feature-level context learning. In particular, we instantiate this target with three key design: (1) A more scalable Diffusion Transformer (DiT) structure trained with extra mask construction task. (2) we devise diffusion-related mask tokens to deal with the fuzzy relations between mask reconstruction and generative diffusion process. (3) we extend mask construction task to spatial-temporal domain by utilizing row-wise mask for shifted self-attention rather than masked self-attention in MAE. Then, we adopt a row-wise cross-view module to align with this mask design. Based on above improvement, we propose MaskGWM: a Generalizable driving World Model embodied with Video Mask reconstruction. Our model contains two variants: MaskGWM-long, focusing on long-horizon prediction, and MaskGWM-mview, dedicated to multi-view generation. Comprehensive experiments on standard benchmarks validate the effectiveness of the proposed method, which contain normal validation of Nuscene dataset, long-horizon rollout of OpenDV-2K dataset and zero-shot validation of Waymo dataset. Quantitative metrics on these datasets show our method notably improving state-of-the-art driving world model.
- Abstract(参考訳): 行動から環境変化を予測する世界モデルは、強力な一般化を伴う自律運転モデルにとって不可欠である。
一般的な運転世界モデルは、主にビデオ予測モデルに基づいて構築される。
これらのモデルでは高忠実度ビデオシーケンスを生成できるが、予測時間と全体的な一般化能力に制約される。
本稿では、この問題を解決するために、生成損失とMAEスタイルの特徴レベルの文脈学習を組み合わせることを提案する。
特に,このターゲットを,(1)拡張性のある拡散変換器(DiT)構造を仮面構築タスクで訓練した3つの重要な設計でインスタンス化する。
2) 拡散関連マスクトークンを考案し, マスク再構成と生成拡散過程のファジィ関係に対処する。
3) マスク構築タスクを空間時間領域に拡張し, 行ワイドマスクをMAEにおけるマスク自己注意よりもシフト自己注意に活用する。
次に、このマスク設計に合わせて行ワイズ・クロスビュー・モジュールを採用する。
以上の改良に基づき,ビデオマスク再構成を具現化した汎用運転型ワールドモデルであるMaskGWMを提案する。
本モデルには,長期水平予測に着目したMaskGWM-longと,マルチビュー生成専用のMaskGWM-mviewの2種類が含まれている。
提案手法の有効性は,通常のNusceneデータセットの検証,OpenDV-2Kデータセットの長期ロールアウト,Waymoデータセットのゼロショット検証を含む。
これらのデータセットの定量的メトリクスは、最先端の運転世界モデルを改善するために、我々の手法を顕著に示す。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - MaskViT: Masked Visual Pre-Training for Video Prediction [29.25521342538311]
マスク付き視覚モデルを用いて、トランスフォーマーを事前学習することで、優れた映像予測モデルを作成する。
MaskViTは、ビデオ予測における以前の作業よりも優れ、パラメータ効率が高く、高解像度のビデオを生成することができる。
我々の研究は、マスク付き視覚モデリングの一般的な枠組みを活用することで、強力な予測モデルでエンボディードエージェントを育むことができることを示唆している。
論文 参考訳(メタデータ) (2022-06-23T17:59:33Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - LeafMask: Towards Greater Accuracy on Leaf Segmentation [1.0499611180329804]
LeafMaskは、各葉領域をデライン化し、葉の数をカウントする、新しいエンドツーエンドモデルである。
提案モデルでは,90.09%のBestDiceスコアが得られ,他の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-08T04:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。