論文の概要: SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction
- arxiv url: http://arxiv.org/abs/2503.18933v1
- Date: Mon, 24 Mar 2025 17:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:22.145795
- Title: SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction
- Title(参考訳): SyncVP: 同期マルチモードビデオ予測のための関節拡散
- Authors: Enrico Pallotta, Sina Mokhtarzadeh Azar, Shuai Li, Olga Zatsarynna, Juergen Gall,
- Abstract要約: 同期ビデオ予測(SyncVP)のためのマルチモーダルフレームワークを提案する。
SyncVPは、モダリティを訓練したモデルの上に構築され、効率的な時間的プレアテンションモジュールを導入している。
特にSyncVPは、1つのモダリティしか存在しないシナリオであっても、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 17.3162098606835
- License:
- Abstract: Predicting future video frames is essential for decision-making systems, yet RGB frames alone often lack the information needed to fully capture the underlying complexities of the real world. To address this limitation, we propose a multi-modal framework for Synchronous Video Prediction (SyncVP) that incorporates complementary data modalities, enhancing the richness and accuracy of future predictions. SyncVP builds on pre-trained modality-specific diffusion models and introduces an efficient spatio-temporal cross-attention module to enable effective information sharing across modalities. We evaluate SyncVP on standard benchmark datasets, such as Cityscapes and BAIR, using depth as an additional modality. We furthermore demonstrate its generalization to other modalities on SYNTHIA with semantic information and ERA5-Land with climate data. Notably, SyncVP achieves state-of-the-art performance, even in scenarios where only one modality is present, demonstrating its robustness and potential for a wide range of applications.
- Abstract(参考訳): 将来的なビデオフレームの予測は意思決定システムに不可欠であるが、RGBフレームだけでは現実世界の複雑さを完全に捉えるために必要な情報が不足していることが多い。
この制限に対処するために、補完的なデータモダリティを組み込んだ同期ビデオ予測(SyncVP)のためのマルチモーダルフレームワークを提案し、将来の予測の豊かさと精度を高める。
SyncVPは、事前訓練されたモダリティ固有の拡散モデルを構築し、モダリティ間の効果的な情報共有を可能にするために、効率的な時空間横断モジュールを導入する。
我々は、CityscapesやBAIRといった標準ベンチマークデータセット上でSyncVPを評価し、Deepを追加のモダリティとして利用した。
さらに,SynTHIAのセマンティック情報を用いた他のモダリティへの一般化と,気候データによるERA5-Landの一般化を実証する。
特にSyncVPは、1つのモダリティしか存在しないシナリオでも最先端のパフォーマンスを実現し、その堅牢性と幅広いアプリケーションの可能性を示している。
関連論文リスト
- Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation [47.75348821902489]
現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
本研究は,時間的に密度の高い事象モダリティの集合を導くために空間的に密度の高いモダリティを用いる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-01T13:40:09Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - Towards Multimodal Video Paragraph Captioning Models Robust to Missing Modality [26.55645677311152]
ビデオキャプション(VPC)は、長いビデオのための詳細な物語を生成する。
既存のモデルは、1つの補助モダリティの一定の可用性の仮定によって制約される。
本稿では, 利用可能な全ての補助入力を有効活用し, 一定のモダリティがなくてもレジリエンスを維持する, ミス・抵抗性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T08:35:46Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Video Diffusion Models with Local-Global Context Guidance [17.040535240422088]
高品質なビデオを生成するためのマルチパーセプション条件を抽出するローカル・グローバル・コンテキスト誘導ビデオ拡散モデル(LGC-VD)を提案する。
提案手法は, 映像予測, 非条件推論, 映像生成において, 良好な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:32:27Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。