論文の概要: Event-to-Video Reconstruction using Spatio-Temporal and Frequency-Enhanced Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2605.25804v1
- Date: Mon, 25 May 2026 12:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.054111
- Title: Event-to-Video Reconstruction using Spatio-Temporal and Frequency-Enhanced Deep Neural Networks
- Title(参考訳): 時空間および周波数強調型ディープニューラルネットワークを用いたイベント・ツー・ビデオ再構成
- Authors: Ramna Maqsood, Paulo Nunes, Luís Ducla Soares, Caroline Conti,
- Abstract要約: Event-to-video (E2V) は、イベントストリームを非同期シーケンスフレームに変換することで、このギャップを埋めようとしている。
MSFET-E2Vは、複数の実世界のイベントデータセットにおける最先端メソッドよりも優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 1.8899300124593648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras offer significant advantages over conventional frame-based counterparts, including high temporal resolution, low latency, and energy efficiency. These characteristics make them suitable for high-speed and high-dynamic range scene acquisition scenarios; however, the lack of dense intensity frames limits the direct applicability of conventional computer vision methods for scene understanding. Event-to-video (E2V) reconstruction seeks to bridge this gap by converting asynchronous event streams into a sequence of synchronous video frames. Existing E2V reconstruction methods based on convolutional neural networks and transformers operate primarily in the spatial domain and often struggle to recover fine structural details while suppressing severe reconstruction artifacts. To address these issues, we propose MSFET-E2V, a novel multiscale frequency-enhanced transformer model. At its core lies a cross-domain attention module, which fuses spatio-temporal features with frequency-aware representations derived from the discrete wavelet transform. Unlike prior methods relying solely on spatial attention, our approach effectively captures both local and global structures by taking into account low- and high-frequency components, enhancing detail preservation and robustness across various motion scenarios. Furthermore, we propose a lightweight wavelet-enhanced skip block that serves as a skip connection, facilitating artifact suppression and structural detail refinement through joint spatial-frequency domain processing. Extensive experiments demonstrate that MSFET-E2V achieves superior performance over state-of-the-art methods on multiple real-world event datasets, offering significant gains in reconstruction quality. Moreover, compared to the existing transformer-based method, our proposed model significantly reduces the number of parameters, the GPU memory usage, and inference time.
- Abstract(参考訳): イベントカメラは、高時間分解能、低レイテンシ、エネルギー効率など、従来のフレームベースのカメラに比べて大きな利点がある。
これらの特徴は、高速かつ高ダイナミックなシーン取得シナリオに適しているが、高密度フレームの欠如は、シーン理解のための従来のコンピュータビジョン手法の直接的な適用性を制限している。
イベント・トゥ・ビデオ(E2V)の再構築では、非同期のイベントストリームを一連の同期ビデオフレームに変換することで、このギャップを埋めようとしている。
畳み込みニューラルネットワークとトランスフォーマーをベースとした既存のE2V再構成手法は、主に空間領域で動作し、深刻な再構成アーティファクトを抑えつつ、微細な構造的詳細の回復に苦慮することが多い。
これらの問題に対処するために,新しいマルチスケール周波数エンハンストランスモデル MSFET-E2V を提案する。
コアにはクロスドメインアテンションモジュールがあり、これは離散ウェーブレット変換から派生した周波数認識表現と時空間的特徴を融合する。
従来は空間的注意のみに頼っていた手法とは違って,低周波・高周波成分を考慮した局所的・大域的構造を効果的に把握し,様々な動きシナリオの詳細な保存と堅牢性を向上させる。
さらに、スキップ接続として機能し、共同空間周波数領域処理によるアーティファクトの抑制と構造的詳細化を容易にする軽量なウェーブレット強化スキップブロックを提案する。
大規模な実験により、MSFET-E2Vは、複数の実世界のイベントデータセットにおける最先端の手法よりも優れた性能を達成し、再構築品質を大幅に向上させることが示された。
さらに,既存の変換器を用いた手法と比較して,提案手法はパラメータ数,GPUメモリ使用量,推論時間を大幅に削減する。
関連論文リスト
- ReMATF: Recurrent Motion-Adaptive Multi-scale Turbulence Mitigation for Dynamic Scenes [4.282240730573401]
大気の乱流は、幾何学的歪み、ぼかし、時間的ひねりなどの歪みを導入することで、映像の品質を著しく低下させる。
本稿では,空間的詳細と時間的安定性を保ちながら,同時に2フレームのみを使用して映像を復元する軽量なリカレントフレームワークであるReMATFを提案する。
論文 参考訳(メタデータ) (2026-05-20T17:28:49Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - Exploring Fourier Prior and Event Collaboration for Low-Light Image Enhancement [1.8724535169356553]
イベントカメラは低照度画像強調のための性能向上を提供する。
現在、既存のイベントベースのメソッドは、フレームとイベントを直接単一のモデルにフィードする。
本稿では,振幅-位相絡み付き可視性回復ネットワークを提案する。
第2段階では、空間的ミスマッチを軽減するために、動的アライメントを伴う融合戦略を提案する。
論文 参考訳(メタデータ) (2025-08-01T04:25:00Z) - Efficient Dual-domain Image Dehazing with Haze Prior Perception [26.57698394898644]
トランスフォーマーベースのモデルは、シングルイメージのデハージングにおいて強力なグローバルモデリング能力を示すが、その高い計算コストはリアルタイム適用性を制限する。
そこで我々はDGFDNet(Dark Channel Guided Frequency-aware Dehazing Network)を提案する。
4つのベンチマークハウズデータセットの実験により、DGFDNetは、より優れた堅牢性とリアルタイム効率で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-07-15T06:56:56Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - FANeRV: Frequency Separation and Augmentation based Neural Representation for Video [32.35716293561769]
ビデオのための周波数分離と拡張に基づくニューラル表現(FANeRV)を提案する。
FANeRVは離散ウェーブレット変換を用いて入力フレームを高周波数成分と低周波数成分に明示的に分離する。
特別に設計されたゲートネットワークは、これらの周波数成分を効果的に融合して最適な再構成を行う。
論文 参考訳(メタデータ) (2025-04-09T10:19:35Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。