論文の概要: EvDiff: High Quality Video with an Event Camera
- arxiv url: http://arxiv.org/abs/2511.17492v1
- Date: Fri, 21 Nov 2025 18:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.1748
- Title: EvDiff: High Quality Video with an Event Camera
- Title(参考訳): EvDiff:イベントカメラ付き高品質ビデオ
- Authors: Weilun Li, Lei Sun, Ruixi Gao, Qi Jiang, Yuqin Ma, Kaiwei Wang, Ming-Hsuan Yang, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: イベントからの強度画像の再構成は、絶対的な明るさのあいまいさが原因で、非常に不適切な作業である。
EvDiffはイベントベースの拡散モデルであり、高品質なビデオを作成するための代理トレーニングフレームワークに従う。
- 参考スコア(独自算出の注目度): 77.07279880903009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As neuromorphic sensors, event cameras asynchronously record changes in brightness as streams of sparse events with the advantages of high temporal resolution and high dynamic range. Reconstructing intensity images from events is a highly ill-posed task due to the inherent ambiguity of absolute brightness. Early methods generally follow an end-to-end regression paradigm, directly mapping events to intensity frames in a deterministic manner. While effective to some extent, these approaches often yield perceptually inferior results and struggle to scale up in model capacity and training data. In this work, we propose EvDiff, an event-based diffusion model that follows a surrogate training framework to produce high-quality videos. To reduce the heavy computational cost of high-frame-rate video generation, we design an event-based diffusion model that performs only a single forward diffusion step, equipped with a temporally consistent EvEncoder. Furthermore, our novel Surrogate Training Framework eliminates the dependence on paired event-image datasets, allowing the model to leverage large-scale image datasets for higher capacity. The proposed EvDiff is capable of generating high-quality colorful videos solely from monochromatic event streams. Experiments on real-world datasets demonstrate that our method strikes a sweet spot between fidelity and realism, outperforming existing approaches on both pixel-level and perceptual metrics.
- Abstract(参考訳): ニューロモルフィックセンサーとして、イベントカメラは、高時間分解能と高ダイナミックレンジの利点により、スパースイベントのストリームとして輝度の変化を非同期に記録する。
イベントからの強度画像の再構成は、絶対的な明るさのあいまいさが原因で、非常に不適切な作業である。
初期の手法は一般にエンドツーエンドの回帰パラダイムに従い、決定論的手法でイベントを直接強度フレームにマッピングする。
ある程度効果はあるものの、これらのアプローチは知覚的に劣った結果をもたらし、モデルのキャパシティとトレーニングデータのスケールアップに苦労することが多い。
本研究では,高品質なビデオを作成するための代理学習フレームワークに従うイベントベース拡散モデルであるEvDiffを提案する。
高フレームレートビデオ生成の計算コストを低減するため,時間的に一貫したEvEncoderを備えた単一前方拡散ステップのみを実行するイベントベース拡散モデルを設計した。
さらに、新しいSurrogate Training Frameworkでは、ペア化されたイベントイメージデータセットへの依存を排除し、大規模画像データセットを高いキャパシティで活用できるようにしています。
提案したEvDiffは、モノクロイベントストリームのみから高品質なカラフルなビデオを生成することができる。
実世界のデータセットの実験では、我々の手法は忠実度とリアリズムの間のスイートスポットにぶつかっており、ピクセルレベルと知覚メトリクスの両方において既存のアプローチよりも優れています。
関連論文リスト
- FideDiff: Efficient Diffusion Model for High-Fidelity Image Motion Deblurring [33.809728459395785]
FideDiffは、高忠実度デブロアリング用に設計された新しい単一ステップ拡散モデルである。
我々は、各タイムステップが徐々にぼやけた画像を表す拡散のようなプロセスとして、動きのデブロアリングを再構成する。
一致したぼやけた軌跡でトレーニングデータを再構成することにより、モデルは時間的一貫性を学習し、正確なワンステップのデブロワーを可能にする。
論文 参考訳(メタデータ) (2025-10-02T03:44:45Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - EGVD: Event-Guided Video Diffusion Model for Physically Realistic Large-Motion Frame Interpolation [16.22243283808375]
Event-Guided Video Diffusion Model (EGVD) は、事前訓練された安定したビデオ拡散モデルの強力な先行性を活用する新しいフレームワークである。
提案手法は,RGBフレームとイベント信号とを効果的に統合して拡散過程を導出するマルチモーダル運動条件生成器(MMCG)を特徴とする。
実データとシミュレーションデータの両方の実験により、EGVDは大きな動きを扱う既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-03-26T06:33:32Z) - EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation [58.41979933166173]
EvAnimateは、条件付き人間の画像アニメーションにおいて、イベントストリームを堅牢で正確なモーションキューとして活用する最初の方法である。
高品質で時間的コヒーレントなアニメーションはデュアルブランチアーキテクチャによって実現される。
実験結果から,従来の映像由来のキューが短いシナリオにおいて,EvAnimateは時間的忠実度が高く,頑健なパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2025-03-24T11:05:41Z) - EventSplat: 3D Gaussian Splatting from Moving Event Cameras for Real-time Rendering [7.392798832833857]
イベントカメラは例外的な時間分解能と高いダイナミックレンジを提供する。
ガウススプラッティングによる新しいビュー合成におけるイベントカメラデータの利用法を提案する。
論文 参考訳(メタデータ) (2024-12-10T08:23:58Z) - E2VIDiff: Perceptual Events-to-Video Reconstruction using Diffusion Priors [44.430588804079555]
イベント間再構成に拡散モデルを導入し、無彩色イベントからカラフルでリアルで知覚的に優れた映像生成を実現する。
当社のアプローチは、与えられたイベントに忠実な、多様で現実的なフレームを作り出すことができる。
論文 参考訳(メタデータ) (2024-07-11T07:10:58Z) - Event-based Continuous Color Video Decompression from Single Frames [36.4263932473053]
本研究では,静止RGB画像とイベントカメラストリームから連続映像を生成する新しい手法であるContinuityCamを提案する。
提案手法は、連続した長距離動きモデリングとニューラル合成モデルを組み合わせることで、イベント内の任意のタイミングでフレーム予測を可能にする。
論文 参考訳(メタデータ) (2023-11-30T18:59:23Z) - EventNeRF: Neural Radiance Fields from a Single Colour Event Camera [81.19234142730326]
本稿では, 単色イベントストリームを入力として, 3次元一貫性, 密度, 新規なビュー合成法を提案する。
その中核は、カラーイベントチャンネルのオリジナルの解像度を維持しながら、イベントから完全に自己教師された方法で訓練された神経放射場である。
提案手法をいくつかの難解な合成シーンと実シーンで定性的・数値的に評価し,より密集し,より視覚的に魅力的であることを示す。
論文 参考訳(メタデータ) (2022-06-23T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。