論文の概要: EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2503.15831v1
- Date: Thu, 20 Mar 2025 03:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:11.942770
- Title: EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation
- Title(参考訳): EDEN:高画質大動画フレーム補間のための拡散強化
- Authors: Zihao Zhang, Haoran Chen, Haoyu Zhao, Guansong Lu, Yanwei Fu, Hang Xu, Zuxuan Wu,
- Abstract要約: 高品質な大動vidEoフレームiNterpolationのための拡張拡散であるEDENを紹介する。
提案手法はまずトランスを用いたトークン化器を用いて,拡散モデルのための中間フレームの洗練された潜在表現を生成する。
次に,プロセス全体にわたって時間的注意を払って拡散トランスフォーマーを強化し,動的運動の発生を導くために,初期フレーム差の埋め込みを組み込む。
- 参考スコア(独自算出の注目度): 95.60655992032316
- License:
- Abstract: Handling complex or nonlinear motion patterns has long posed challenges for video frame interpolation. Although recent advances in diffusion-based methods offer improvements over traditional optical flow-based approaches, they still struggle to generate sharp, temporally consistent frames in scenarios with large motion. To address this limitation, we introduce EDEN, an Enhanced Diffusion for high-quality large-motion vidEo frame iNterpolation. Our approach first utilizes a transformer-based tokenizer to produce refined latent representations of the intermediate frames for diffusion models. We then enhance the diffusion transformer with temporal attention across the process and incorporate a start-end frame difference embedding to guide the generation of dynamic motion. Extensive experiments demonstrate that EDEN achieves state-of-the-art results across popular benchmarks, including nearly a 10% LPIPS reduction on DAVIS and SNU-FILM, and an 8% improvement on DAIN-HD.
- Abstract(参考訳): 複雑な動作パターンや非線形動作パターンを扱うことは、長い間ビデオフレーム補間に課題を提起してきた。
拡散に基づく手法の最近の進歩は、従来の光学フローベースのアプローチよりも改善されているが、大きな動きを持つシナリオにおいて、シャープで時間的に一貫したフレームを生成するのに依然として苦労している。
この制限に対処するために,高品質な大動vidEoフレームiNterpolationのための拡張拡散であるEDENを導入する。
提案手法はまずトランスを用いたトークン化器を用いて,拡散モデルのための中間フレームの洗練された潜在表現を生成する。
次に,プロセス全体にわたって時間的注意を払って拡散トランスフォーマーを強化し,動的運動の発生を導くために,初期フレーム差の埋め込みを組み込む。
DAVIS と SNU-FILM の 10% LPIPS 削減,DAIN-HD の 8% の改善など,一般的なベンチマークにおいて,EDEN は最先端の結果を達成している。
関連論文リスト
- DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation [0.0]
本研究では,大動フレームに対して映像間モデルを適用するために設計された条件付きエンコーダを提案する。
性能向上のために,デュアルブランチ特徴抽出器を統合し,クロスフレームアテンション機構を提案する。
提案手法は,他の最先端手法と比較して,Fr'teche Video Distance測定において優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-22T14:49:55Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - LADDER: An Efficient Framework for Video Frame Interpolation [12.039193291203492]
ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。
本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T06:47:17Z) - Video Interpolation by Event-driven Anisotropic Adjustment of Optical
Flow [11.914613556594725]
イベント駆動型光フローの異方性調整によるビデオフレームのエンドツーエンドトレーニング手法A2OFを提案する。
具体的には、2つのフレーム間の複雑な動きをモデル化できる中間光学フローのための光フロー分布マスクを生成するためにイベントを使用する。
論文 参考訳(メタデータ) (2022-08-19T02:31:33Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。