論文の概要: EGVD: Event-Guided Video Diffusion Model for Physically Realistic Large-Motion Frame Interpolation
- arxiv url: http://arxiv.org/abs/2503.20268v1
- Date: Wed, 26 Mar 2025 06:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:33.922101
- Title: EGVD: Event-Guided Video Diffusion Model for Physically Realistic Large-Motion Frame Interpolation
- Title(参考訳): EGVD:物理実写大動フレーム補間のためのイベント誘導ビデオ拡散モデル
- Authors: Ziran Zhang, Xiaohui Li, Yihao Liu, Yujin Wang, Yueting Chen, Tianfan Xue, Shi Guo,
- Abstract要約: Event-Guided Video Diffusion Model (EGVD) は、事前訓練された安定したビデオ拡散モデルの強力な先行性を活用する新しいフレームワークである。
提案手法は,RGBフレームとイベント信号とを効果的に統合して拡散過程を導出するマルチモーダル運動条件生成器(MMCG)を特徴とする。
実データとシミュレーションデータの両方の実験により、EGVDは大きな動きを扱う既存の手法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 16.22243283808375
- License:
- Abstract: Video frame interpolation (VFI) in scenarios with large motion remains challenging due to motion ambiguity between frames. While event cameras can capture high temporal resolution motion information, existing event-based VFI methods struggle with limited training data and complex motion patterns. In this paper, we introduce Event-Guided Video Diffusion Model (EGVD), a novel framework that leverages the powerful priors of pre-trained stable video diffusion models alongside the precise temporal information from event cameras. Our approach features a Multi-modal Motion Condition Generator (MMCG) that effectively integrates RGB frames and event signals to guide the diffusion process, producing physically realistic intermediate frames. We employ a selective fine-tuning strategy that preserves spatial modeling capabilities while efficiently incorporating event-guided temporal information. We incorporate input-output normalization techniques inspired by recent advances in diffusion modeling to enhance training stability across varying noise levels. To improve generalization, we construct a comprehensive dataset combining both real and simulated event data across diverse scenarios. Extensive experiments on both real and simulated datasets demonstrate that EGVD significantly outperforms existing methods in handling large motion and challenging lighting conditions, achieving substantial improvements in perceptual quality metrics (27.4% better LPIPS on Prophesee and 24.1% on BSRGB) while maintaining competitive fidelity measures. Code and datasets available at: https://github.com/OpenImagingLab/EGVD.
- Abstract(参考訳): 動画フレーム補間(VFI)は、フレーム間の動きのあいまいさのため、大きな動きを持つシナリオでは依然として困難である。
イベントカメラは、高時間分解能モーション情報をキャプチャできるが、既存のイベントベースのVFI手法は、限られたトレーニングデータと複雑なモーションパターンに苦労する。
本稿では、イベントカメラからの正確な時間情報とともに、事前訓練された安定したビデオ拡散モデルの強力な先行性を活用する新しいフレームワークであるイベントガイドビデオ拡散モデル(EGVD)を紹介する。
提案手法では,RGBフレームとイベント信号を効果的に統合して拡散過程を導出し,物理的にリアルな中間フレームを生成するマルチモーダル運動条件発生器(MMCG)を特徴とする。
我々は、イベント誘導時間情報を効率的に組み込んだ空間モデリング機能を維持するための選択的な微調整戦略を採用する。
拡散モデリングの最近の進歩にインスパイアされた入力出力正規化手法を取り入れ、様々な雑音レベルにわたるトレーニング安定性を向上させる。
一般化を改善するため,様々なシナリオにまたがる実データと模擬イベントデータを組み合わせた包括的データセットを構築した。
実データとシミュレーションデータの両方に対する大規模な実験により、EGVDは大きな動きや難解な照明条件を扱う既存の手法よりも優れており、競争力のあるフィデリティ対策を維持しつつ、知覚品質の指標(プロフェシーでは27.4%、BSRGBでは24.1%)を大幅に改善していることが示された。
コードとデータセットは、https://github.com/OpenImagingLab/EGVD.comで入手できる。
関連論文リスト
- Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation [47.75348821902489]
現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
本研究は,時間的に密度の高い事象モダリティの集合を導くために空間的に密度の高いモダリティを用いる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-01T13:40:09Z) - Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation [20.689304579898728]
イベントベースのビデオフレーム補間(EVFI)は、動き誘導としてスパースで高時間分解能なイベント計測を使用する。
我々は、インターネット規模のデータセットで訓練された事前学習ビデオ拡散モデルをEVFIに適用する。
提案手法は既存の手法より優れており,カメラ全体の一般化が従来の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2024-12-10T18:55:30Z) - E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - Event-based Video Frame Interpolation with Edge Guided Motion Refinement [28.331148083668857]
本稿では,イベント信号のエッジ特徴を効果的に活用するためのエンドツーエンドE-VFI学習手法を提案する。
提案手法にはエッジガイド・アテンテーティブ(EGA)モジュールが組み込まれており,アテンテーティブアグリゲーションによって推定された映像の動きを補正する。
合成データと実データの両方を用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-28T12:13:34Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Revisiting Event-based Video Frame Interpolation [49.27404719898305]
ダイナミックビジョンセンサーやイベントカメラは、ビデオフレームに豊富な補完情報を提供する。
イベントからの光の流れを推定することは、RGB情報より間違いなく困難である。
イベントベースの中間フレーム合成を複数の単純化段階において漸進的に行う分割・対数戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T06:51:07Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。