論文の概要: MAD: Motion Appearance Decoupling for efficient Driving World Models
- arxiv url: http://arxiv.org/abs/2601.09452v1
- Date: Wed, 14 Jan 2026 12:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.404136
- Title: MAD: Motion Appearance Decoupling for efficient Driving World Models
- Title(参考訳): MAD:効率的な運転世界モデルのための運動外観デカップリング
- Authors: Ahmad Rahimi, Valentin Gerard, Eloi Zablocki, Matthieu Cord, Alexandre Alahi,
- Abstract要約: 本稿では,一般的な映像モデルを制御可能な運転世界モデルに変換する,効率的な適応フレームワークを提案する。
鍵となるアイデアは、外見合成からモーションラーニングを分離することである。
私たちのMAD-LTXモデルであるLTXへのスケーリングは、すべてのオープンソース競合より優れています。
- 参考スコア(独自算出の注目度): 94.40548866741791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video diffusion models generate photorealistic, temporally coherent videos, yet they fall short as reliable world models for autonomous driving, where structured motion and physically consistent interactions are essential. Adapting these generalist video models to driving domains has shown promise but typically requires massive domain-specific data and costly fine-tuning. We propose an efficient adaptation framework that converts generalist video diffusion models into controllable driving world models with minimal supervision. The key idea is to decouple motion learning from appearance synthesis. First, the model is adapted to predict structured motion in a simplified form: videos of skeletonized agents and scene elements, focusing learning on physical and social plausibility. Then, the same backbone is reused to synthesize realistic RGB videos conditioned on these motion sequences, effectively "dressing" the motion with texture and lighting. This two-stage process mirrors a reasoning-rendering paradigm: first infer dynamics, then render appearance. Our experiments show this decoupled approach is exceptionally efficient: adapting SVD, we match prior SOTA models with less than 6% of their compute. Scaling to LTX, our MAD-LTX model outperforms all open-source competitors, and supports a comprehensive suite of text, ego, and object controls. Project page: https://vita-epfl.github.io/MAD-World-Model/
- Abstract(参考訳): 最近のビデオ拡散モデルは、光現実的で時間的コヒーレントなビデオを生成するが、構造化された動きと物理的に一貫した相互作用が不可欠である、自律運転のための信頼性の高い世界モデルとしては不足している。
これらのジェネラリストビデオモデルを駆動ドメインに適応させることは、将来性を示しているが、通常、膨大なドメイン固有のデータとコストのかかる微調整を必要とする。
本稿では,汎用的な動画拡散モデルを最小限の監督力で制御可能な運転世界モデルに変換する,効率的な適応フレームワークを提案する。
鍵となるアイデアは、外見合成からモーションラーニングを分離することである。
まず、このモデルは、骨格化されたエージェントとシーン要素のビデオ、身体的および社会的妥当性の学習という、シンプルな形式で構造化された動きを予測するために適応される。
そして、同じバックボーンを再利用して、これらのモーションシーケンスに条件付けされたリアルなRGBビデオを合成し、テクスチャとライティングで効果的に「着飾る」。
この2段階のプロセスは推論レンダリングのパラダイムを反映している。
SVDを適用すると、従来のSOTAモデルと6%未満の計算量で一致します。
LTXへのスケーリングでは、MAD-LTXモデルはすべてのオープンソース競合より優れており、テキスト、ego、オブジェクトコントロールの包括的なスイートをサポートします。
プロジェクトページ:https://vita-epfl.github.io/MAD-World-Model/
関連論文リスト
- MoAlign: Motion-Centric Representation Alignment for Video Diffusion Models [50.162882483045045]
本研究では、予め訓練されたビデオエンコーダから非交叉運動部分空間を学習する動き中心アライメントフレームワークを提案する。
この部分空間は、地表面の光学的流れを予測し、真の運動力学を捉えるよう最適化されている。
次に,テキスト間拡散モデルの潜在的特徴をこの新たなサブスペースに整合させ,生成モデルが動きの知識を内部化し,より高機能なビデオを生成することを可能にする。
論文 参考訳(メタデータ) (2025-10-21T19:05:23Z) - VaViM and VaVAM: Autonomous Driving through Video Generative Modeling [88.33638585518226]
本稿では,オープンソースの自動回帰ビデオモデル(VaM)とそのビデオアクションモデル(VaVAM)を紹介する。
オープンループ運転とクローズドループ運転のシナリオでモデルを評価したところ、ビデオベースの事前学習が自律運転の可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2025-02-21T18:56:02Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation [27.690736225683825]
動作推論を視覚合成から明確に分離する2段階のフレームワークであるMotion Dreamerを紹介する。
提案手法では,部分的ユーザ定義動作の効果的な統合を可能にするスパース・ツー・デンス動作表現であるインスタンスフローを導入している。
実験により、モーションドリーマーは既存の手法よりも優れており、より優れた動きの可視性と視覚的リアリズムを実現していることが示された。
論文 参考訳(メタデータ) (2024-11-30T17:40:49Z) - AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。
AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。
AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T13:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。