論文の概要: EvLight++: Low-Light Video Enhancement with an Event Camera: A Large-Scale Real-World Dataset, Novel Method, and More
- arxiv url: http://arxiv.org/abs/2408.16254v1
- Date: Thu, 29 Aug 2024 04:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 15:05:40.495917
- Title: EvLight++: Low-Light Video Enhancement with an Event Camera: A Large-Scale Real-World Dataset, Novel Method, and More
- Title(参考訳): EvLight++: イベントカメラによる低照度ビデオ拡張: 大規模リアルタイムデータセット、新しいメソッドなど
- Authors: Kanghao Chen, Guoqiang Liang, Hangyu Li, Yunfan Lu, Lin Wang,
- Abstract要約: EvLight++は、現実のシナリオで堅牢なパフォーマンスのために設計された、イベント誘導型低照度ビデオ拡張アプローチである。
EvLight++は1.37dBと3.71dBの2つのイメージベースとビデオベースの両方で大幅に性能が向上した。
- 参考スコア(独自算出の注目度): 7.974102031202597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras offer significant advantages for low-light video enhancement, primarily due to their high dynamic range. Current research, however, is severely limited by the absence of large-scale, real-world, and spatio-temporally aligned event-video datasets. To address this, we introduce a large-scale dataset with over 30,000 pairs of frames and events captured under varying illumination. This dataset was curated using a robotic arm that traces a consistent non-linear trajectory, achieving spatial alignment precision under 0.03mm and temporal alignment with errors under 0.01s for 90% of the dataset. Based on the dataset, we propose \textbf{EvLight++}, a novel event-guided low-light video enhancement approach designed for robust performance in real-world scenarios. Firstly, we design a multi-scale holistic fusion branch to integrate structural and textural information from both images and events. To counteract variations in regional illumination and noise, we introduce Signal-to-Noise Ratio (SNR)-guided regional feature selection, enhancing features from high SNR regions and augmenting those from low SNR regions by extracting structural information from events. To incorporate temporal information and ensure temporal coherence, we further introduce a recurrent module and temporal loss in the whole pipeline. Extensive experiments on our and the synthetic SDSD dataset demonstrate that EvLight++ significantly outperforms both single image- and video-based methods by 1.37 dB and 3.71 dB, respectively. To further explore its potential in downstream tasks like semantic segmentation and monocular depth estimation, we extend our datasets by adding pseudo segmentation and depth labels via meticulous annotation efforts with foundation models. Experiments under diverse low-light scenes show that the enhanced results achieve a 15.97% improvement in mIoU for semantic segmentation.
- Abstract(参考訳): イベントカメラは、高ダイナミックレンジのため、低照度ビデオのエンハンスメントに大きな利点をもたらす。
しかし、現在の研究は、大規模な、実世界、時空間的に整合したイベント・ビデオ・データセットが存在しないために、著しく制限されている。
そこで本研究では,3万組以上のフレームとイベントを多彩な照明下でキャプチャした大規模データセットを提案する。
このデータセットは、一貫した非線形軌道を辿り、0.03mm以下の空間的アライメント精度と、データセットの90%の0.01s以下のエラーとの時間的アライメントを達成するロボットアームを用いてキュレートされた。
このデータセットに基づいて,実世界のシナリオにおけるロバストなパフォーマンスのために設計された,イベント誘導型低照度ビデオエンハンスメントアプローチである‘textbf{EvLight++} を提案する。
まず,画像とイベントの両方から構造情報とテクスチャ情報を統合するために,マルチスケールの総合融合分枝を設計する。
地域照明とノイズの変動に対処するため,SNR(Signal-to-Noise Ratio)誘導の地域特徴選択を導入し,高SNR領域の特徴を増強し,イベントから構造情報を抽出して低SNR領域からの特徴を増強する。
時間的情報と時間的コヒーレンスを確保するため,パイプライン全体の繰り返しモジュールと時間的損失を導入する。
我々のSDSDデータセットと合成SDSDデータセットの大規模な実験により、EvLight++は、それぞれ1.37dBと3.71dBの1つの画像ベースとビデオベースの両方で大幅に性能が向上していることが示された。
セマンティックセグメンテーションや単眼深度推定といった下流タスクにおけるその可能性を探るため、ファンデーションモデルによる微妙なアノテーションによる擬似セグメンテーションと深度ラベルを追加することでデータセットを拡張します。
様々な低照度環境下での実験では、強化された結果により、セマンティックセグメンテーションのためのmIoUが15.97%改善された。
関連論文リスト
- BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - LED: A Large-scale Real-world Paired Dataset for Event Camera Denoising [19.51468512911655]
イベントカメラは、ノイズ干渉を受けやすい場合に動的シーン情報をキャプチャする点で大きな利点がある。
我々は,高解像度(1200*680)イベントストリームで18K秒の3Kシーケンスを含む,新しいペア化された実世界のイベントデノゲーションデータセット(LED)を構築した。
そこで本研究では,GTを生音から分離して生成する手法として,均質な二重事象を用いた新しい効果的なデノナイジングフレームワーク(DED)を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:02:35Z) - Towards Robust Event-guided Low-Light Image Enhancement: A Large-Scale Real-World Event-Image Dataset and Novel Approach [7.974102031202597]
そこで本研究では,低照度および常照度条件下での30万組以上の画像とイベントからなる実世界(屋内および屋外)データセットを提案する。
このデータセットに基づいて、実世界の低照度シーンにおけるロバストなパフォーマンスを実現するために、EvLightと呼ばれるイベント誘導型LIEアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-01T00:18:17Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Real-World Video for Zoom Enhancement based on Spatio-Temporal Coupling [44.2753331076938]
紙-時間情報結合によるズーム品質向上のために,現実的なマルチフレームクリップの適用の可能性を検討する。
異なるズームシナリオで得られた優れた実験結果は、実世界のビデオとSTCLを既存のズームモデルに統合することの優位性を示している。
論文 参考訳(メタデータ) (2023-06-24T06:19:00Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。