論文の概要: IE2Video: Adapting Pretrained Diffusion Models for Event-Based Video Reconstruction
- arxiv url: http://arxiv.org/abs/2512.05240v1
- Date: Thu, 04 Dec 2025 20:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.803196
- Title: IE2Video: Adapting Pretrained Diffusion Models for Event-Based Video Reconstruction
- Title(参考訳): IE2Video:イベントベースのビデオ再構成に事前訓練された拡散モデルを適用する
- Authors: Dmitrii Torbunov, Onur Okuducu, Yi Huang, Odera Dim, Rebecca Coles, Yonggang Cui, Yihui Ren,
- Abstract要約: イベントカメラは、低消費電力でスパースでモーション駆動のセンシングを提供する。
本稿では、連続イベントストリームと並行してスパースRGBシーケンスを記録するハイブリッドキャプチャパラダイムを提案する。
フルRGBビデオをオフラインで再構築します -- ダウンストリームアプリケーションの捕捉電力消費量を削減します。
- 参考スコア(独自算出の注目度): 4.452083769109418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous video monitoring in surveillance, robotics, and wearable systems faces a fundamental power constraint: conventional RGB cameras consume substantial energy through fixed-rate capture. Event cameras offer sparse, motion-driven sensing with low power consumption, but produce asynchronous event streams rather than RGB video. We propose a hybrid capture paradigm that records sparse RGB keyframes alongside continuous event streams, then reconstructs full RGB video offline -- reducing capture power consumption while maintaining standard video output for downstream applications. We introduce the Image and Event to Video (IE2Video) task: reconstructing RGB video sequences from a single initial frame and subsequent event camera data. We investigate two architectural strategies: adapting an autoregressive model (HyperE2VID) for RGB generation, and injecting event representations into a pretrained text-to-video diffusion model (LTX) via learned encoders and low-rank adaptation. Our experiments demonstrate that the diffusion-based approach achieves 33\% better perceptual quality than the autoregressive baseline (0.283 vs 0.422 LPIPS). We validate our approach across three event camera datasets (BS-ERGB, HS-ERGB far/close) at varying sequence lengths (32-128 frames), demonstrating robust cross-dataset generalization with strong performance on unseen capture configurations.
- Abstract(参考訳): 監視、ロボティクス、ウェアラブルシステムにおける連続的なビデオ監視は、基本的な電力制約に直面している。
イベントカメラは、低消費電力でスパースでモーション駆動のセンシングを提供するが、RGBビデオではなく非同期イベントストリームを生成する。
我々は、連続的なイベントストリームと並行してスパースRGBキーフレームを記録し、次に完全なRGBビデオをオフラインで再構築するハイブリッドキャプチャパラダイムを提案する。
画像とイベント・トゥ・ビデオ(IE2Video)タスクを1つの初期フレームとその後のイベントカメラデータからRGBビデオシーケンスを再構成する。
本稿では,RGB生成に自己回帰モデル(HyperE2VID)を適用し,学習エンコーダと低ランク適応による事前学習されたテキスト・ビデオ拡散モデル(LTX)にイベント表現を注入する2つのアーキテクチャ戦略について検討する。
拡散に基づくアプローチは自己回帰ベースライン(0.283対0.422LPIPS)よりも33倍の知覚品質が得られることを示した。
我々は,3つのイベントカメラデータセット(BS-ERGB,HS-ERGB far/close)の様々なシーケンス長(32-128フレーム)でアプローチを検証する。
関連論文リスト
- Dynamic EventNeRF: Reconstructing General Dynamic Scenes from Multi-view RGB and Event Streams [69.65147723239153]
動的シーンのボリューム再構成はコンピュータビジョンにおいて重要な問題である。
照明が悪く、動きが速い場合には特に困難である。
本稿では,スパースなマルチビューイベントストリームとスパースなRGBフレームからシーンを時間的に再構築する手法を提案する。
論文 参考訳(メタデータ) (2024-12-09T18:56:18Z) - EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [87.1077910795879]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - Event-based Continuous Color Video Decompression from Single Frames [36.4263932473053]
本研究では,静止RGB画像とイベントカメラストリームから連続映像を生成する新しい手法であるContinuityCamを提案する。
提案手法は、連続した長距離動きモデリングとニューラル合成モデルを組み合わせることで、イベント内の任意のタイミングでフレーム予測を可能にする。
論文 参考訳(メタデータ) (2023-11-30T18:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。