論文の概要: HMPDM: A Diffusion Model for Driving Video Prediction with Historical Motion Priors
- arxiv url: http://arxiv.org/abs/2603.27371v1
- Date: Sat, 28 Mar 2026 18:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.926185
- Title: HMPDM: A Diffusion Model for Driving Video Prediction with Historical Motion Priors
- Title(参考訳): HMPDM: 歴史的動きを優先した映像予測のための拡散モデル
- Authors: Ke Li, Tianjia Yang, Kaidi Liang, Xianbiao Hu, Ruwen Qin,
- Abstract要約: 本稿では,動きの理解と時間的コヒーレンスを高めるために,過去の動きを利用した映像予測モデルであるHMPDMを紹介する。
Cityscapes と KITTI ベンチマークの大規模な実験により、HMPDM は最先端のビデオ予測手法よりも効率が良いことが示された。
- 参考スコア(独自算出の注目度): 8.987844576502054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is a useful function for autonomous driving, enabling intelligent vehicles to reliably anticipate how driving scenes will evolve and thereby supporting reasoning and safer planning. However, existing models are constrained by multi-stage training pipelines and remain insufficient in modeling the diverse motion patterns in real driving scenes, leading to degraded temporal consistency and visual quality. To address these challenges, this paper introduces the historical motion priors-informed diffusion model (HMPDM), a video prediction model that leverages historical motion priors to enhance motion understanding and temporal coherence. The proposed deep learning system introduces three key designs: (i) a Temporal-aware Latent Conditioning (TaLC) module for implicit historical motion injection; (ii) a Motion-aware Pyramid Encoder (MaPE) for multi-scale motion representation; (iii) a Self-Conditioning (SC) strategy for stable iterative denoising. Extensive experiments on the Cityscapes and KITTI benchmarks demonstrate that HMPDM outperforms state-of-the-art video prediction methods with efficiency, achieving a 28.2% improvement in FVD on Cityscapes under the same monocular RGB input configuration setting. The implementation codes are publicly available at https://github.com/KELISBU/HMPDM.
- Abstract(参考訳): ビデオ予測は自動運転に有用な機能であり、インテリジェントな車両は運転シーンの進化を確実に予測し、推論と安全な計画を支援する。
しかし、既存のモデルはマルチステージの訓練パイプラインによって制約されており、実際の運転シーンにおける多様な動きパターンをモデル化するには不十分であり、時間的一貫性と視覚的品質が低下する。
これらの課題に対処するために,歴史的動き先行情報拡散モデル(HMPDM)を導入し,動きの理解と時間的コヒーレンスを高めるために過去の動き先行情報を利用した映像予測モデルを提案する。
提案するディープラーニングシステムには,3つの重要な設計がある。
(i)暗黙の歴史的動作注入のためのTALCモジュール
(II)マルチスケール動作表現のための運動対応ピラミッドエンコーダ(MaPE)
(三)安定した反復的認知のための自己完結戦略(SC)
Cityscapes と KITTI ベンチマークの大規模な実験により、HMPDM は最先端のビデオ予測手法よりも効率が良く、同じモノクロ RGB 入力設定で Cityscapes 上の FVD を 28.2% 改善した。
実装コードはhttps://github.com/KELISBU/HMPDMで公開されている。
関連論文リスト
- Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Generative Pre-trained Autoregressive Diffusion Transformer [74.25668109048418]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT [33.943125216555316]
我々は、自動運転のためのGPTスタイルの世界モデルであるDrivingWorldを紹介する。
本稿では,連続フレーム間の時間的コヒーレンスをモデル化する次世代予測手法を提案する。
また,長期ドリフト問題を軽減するため,トークン予測のための新しいマスキング戦略と再重み付け戦略を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:44:07Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。