論文の概要: DESSERT: Diffusion-based Event-driven Single-frame Synthesis via Residual Training
- arxiv url: http://arxiv.org/abs/2512.17323v1
- Date: Fri, 19 Dec 2025 08:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.299541
- Title: DESSERT: Diffusion-based Event-driven Single-frame Synthesis via Residual Training
- Title(参考訳): DESSERT: 残留訓練による拡散型イベント駆動単フレーム合成
- Authors: Jiyun Kong, Jun-Hyuk Kim, Jong-Seok Lee,
- Abstract要約: ビデオフレーム予測は、将来のフレームを以前のフレームから外挿するが、動的シーンの予測エラーに悩まされる。
DESSERTは,残差学習による拡散型イベント駆動単フレーム合成フレームワークである。
- 参考スコア(独自算出の注目度): 25.438410354399053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video frame prediction extrapolates future frames from previous frames, but suffers from prediction errors in dynamic scenes due to the lack of information about the next frame. Event cameras address this limitation by capturing per-pixel brightness changes asynchronously with high temporal resolution. Prior research on event-based video frame prediction has leveraged motion information from event data, often by predicting event-based optical flow and reconstructing frames via pixel warping. However, such approaches introduce holes and blurring when pixel displacement is inaccurate. To overcome this limitation, we propose DESSERT, a diffusion-based event-driven single-frame synthesis framework via residual training. Leveraging a pre-trained Stable Diffusion model, our method is trained on inter-frame residuals to ensure temporal consistency. The training pipeline consists of two stages: (1) an Event-to-Residual Alignment Variational Autoencoder (ER-VAE) that aligns the event frame between anchor and target frames with the corresponding residual, and (2) a diffusion model that denoises the residual latent conditioned on event data. Furthermore, we introduce Diverse-Length Temporal (DLT) augmentation, which improves robustness by training on frame segments of varying temporal lengths. Experimental results demonstrate that our method outperforms existing event-based reconstruction, image-based video frame prediction, event-based video frame prediction, and one-sided event-based video frame interpolation methods, producing sharper and more temporally consistent frame synthesis.
- Abstract(参考訳): ビデオフレーム予測は、将来のフレームを以前のフレームから外挿するが、次のフレームに関する情報が不足しているため、動的なシーンでの予測エラーに悩まされる。
イベントカメラは、高時間分解能で非同期に画素ごとの明るさ変化をキャプチャすることで、この制限に対処する。
イベントベースのビデオフレーム予測は、多くの場合、イベントベースの光フローを予測し、ピクセルワープによってフレームを再構築することで、イベントデータからの動き情報を活用する。
しかし、このような手法は画素変位が不正確な場合に穴やぼやけを引き起こす。
この制限を克服するため,拡散型イベント駆動単フレーム合成フレームワークであるDESSERTを提案する。
既訓練の安定拡散モデルを用いて,時間的整合性を確保するために,フレーム間の残差を訓練する。
トレーニングパイプラインは,(1)イベントフレームをアンカーフレームと対象フレームの間に整列させるイベント・ツー・レシダルアライメント変分自動エンコーダ(ER-VAE)と,(2)イベントデータ上で条件付けられた残留潜時を識別する拡散モデルとからなる。
さらに,時間長の異なるフレームセグメントのトレーニングによりロバスト性を向上させるDLT(Diverse-Length Temporal Augmentation)を導入する。
実験の結果,既存のイベントベースの再構成,画像ベースのビデオフレーム予測,イベントベースのビデオフレーム予測,一方のイベントベースのビデオフレーム補間手法よりも優れ,よりシャープで時間的に一貫したフレーム合成を実現していることがわかった。
関連論文リスト
- EvDiff: High Quality Video with an Event Camera [77.07279880903009]
イベントからの強度画像の再構成は、絶対的な明るさのあいまいさが原因で、非常に不適切な作業である。
EvDiffはイベントベースの拡散モデルであり、高品質なビデオを作成するための代理トレーニングフレームワークに従う。
論文 参考訳(メタデータ) (2025-11-21T18:49:18Z) - EVDI++: Event-based Video Deblurring and Interpolation via Self-Supervised Learning [36.86635176661841]
イベントベースのビデオデブロワーリングと補間のための自己教師型フレームワークEVDI++を紹介する。
イベントカメラの高時間分解能を利用して、動きのぼやけを軽減し、中間フレーム予測を可能にする。
実世界のぼやけたビデオやイベントによるネットワークトレーニングを実現するために,自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T03:36:24Z) - CMTA: Cross-Modal Temporal Alignment for Event-guided Video Deblurring [44.30048301161034]
ビデオデブロアリングは、隣接するビデオフレームから情報を集めることで、モーションレッドビデオの復元結果の品質を高めることを目的としている。
1) フレーム内機能拡張は, 単一のぼやけたフレームの露出時間内で動作し, 2) フレーム間時間的特徴アライメントは, 重要な長期時間情報を対象のフレームに収集する。
提案手法は, 合成および実世界のデブロアリングデータセットを用いた広範囲な実験により, 最先端のフレームベースおよびイベントベース動作デブロアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-27T10:09:17Z) - Revisiting Event-based Video Frame Interpolation [49.27404719898305]
ダイナミックビジョンセンサーやイベントカメラは、ビデオフレームに豊富な補完情報を提供する。
イベントからの光の流れを推定することは、RGB情報より間違いなく困難である。
イベントベースの中間フレーム合成を複数の単純化段階において漸進的に行う分割・対数戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T06:51:07Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Unifying Motion Deblurring and Frame Interpolation with Events [11.173687810873433]
フレームベースのカメラのスローシャッター速度と長時間露光は、しばしばフレーム間の情報の視覚的曖昧さと損失を引き起こし、キャプチャされたビデオの全体的な品質を劣化させる。
イベントの極めて低レイテンシを利用して、動きのぼやけを緩和し、中間フレーム予測を容易にする、ぼやけたビデオ強調のためのイベントベースモーションデブロアリングとフレーム拡張の統一フレームワークを提案する。
ぼやけたフレーム,潜入画像,イベントストリーム間の相互制約を探索することにより,実世界のぼやけたビデオやイベントによるネットワークトレーニングを可能にする,自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-23T03:43:12Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。