論文の概要: E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning
- arxiv url: http://arxiv.org/abs/2401.08117v1
- Date: Tue, 16 Jan 2024 05:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:01:07.982826
- Title: E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning
- Title(参考訳): E2HQV:理論に基づくモデル支援ディープラーニングによるイベントカメラからの高品質ビデオ生成
- Authors: Qiang Qu, Yiran Shen, Xiaoming Chen, Yuk Ying Chung, and Tongliang Liu
- Abstract要約: バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
- 参考スコア(独自算出の注目度): 53.63364311738552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The bio-inspired event cameras or dynamic vision sensors are capable of
asynchronously capturing per-pixel brightness changes (called event-streams) in
high temporal resolution and high dynamic range. However, the non-structural
spatial-temporal event-streams make it challenging for providing intuitive
visualization with rich semantic information for human vision. It calls for
events-to-video (E2V) solutions which take event-streams as input and generate
high quality video frames for intuitive visualization. However, current
solutions are predominantly data-driven without considering the prior knowledge
of the underlying statistics relating event-streams and video frames. It highly
relies on the non-linearity and generalization capability of the deep neural
networks, thus, is struggling on reconstructing detailed textures when the
scenes are complex. In this work, we propose \textbf{E2HQV}, a novel E2V
paradigm designed to produce high-quality video frames from events. This
approach leverages a model-aided deep learning framework, underpinned by a
theory-inspired E2V model, which is meticulously derived from the fundamental
imaging principles of event cameras. To deal with the issue of state-reset in
the recurrent components of E2HQV, we also design a temporal shift embedding
module to further improve the quality of the video frames. Comprehensive
evaluations on the real world event camera datasets validate our approach, with
E2HQV, notably outperforming state-of-the-art approaches, e.g., surpassing the
second best by over 40\% for some evaluation metrics.
- Abstract(参考訳): バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセル毎の明るさ変化(イベントストリームと呼ばれる)を非同期に捉えることができる。
しかし、非構造的時空間イベントストリームは、人間の視覚に対する豊かな意味情報による直感的な可視化を提供することが困難である。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する。
しかし、現在のソリューションは、イベントストリームとビデオフレームに関する基礎となる統計の事前知識を考慮せずに、データ駆動型である。
ディープニューラルネットワークの非線形性と一般化能力に大きく依存しており、シーンが複雑である場合の詳細なテクスチャの再構築に苦労している。
本稿では,イベントから高品質のビデオフレームを生成するための新しいe2vパラダイムである \textbf{e2hqv}を提案する。
このアプローチは、モデル支援のディープラーニングフレームワークを活用し、理論にインスパイアされたE2Vモデルによって支えられている。
E2HQVのリカレントコンポーネントにおける状態リセットの問題に対処するために、ビデオフレームの品質をさらに向上させるために、時間シフト埋め込みモジュールを設計する。
実世界のイベントカメラデータセットに関する包括的な評価は、E2HQVによる我々のアプローチを検証する。
関連論文リスト
- LaSe-E2V: Towards Language-guided Semantic-Aware Event-to-Video Reconstruction [8.163356555241322]
セマンティック・アウェアの高品質なE2V再構成を実現する新しいフレームワークであるLaSe-E2Vを提案する。
まずイベント誘導時空間アテンション(ESA)モジュールを提案する。
次に、時間的コヒーレンスを確保するためのイベント対応マスクロスと、空間的一貫性を高めるためのノイズ戦略を導入する。
論文 参考訳(メタデータ) (2024-07-08T01:40:32Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - EventAid: Benchmarking Event-aided Image/Video Enhancement Algorithms
with Real-captured Hybrid Dataset [55.12137324648253]
イベントカメラは、ダイナミックレンジとセンサーの速度で従来のフレームベースの撮像センサーよりも有利な、新興のイメージング技術である。
本稿では,5つのイベント支援画像と映像強調タスクに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-13T15:42:04Z) - HyperE2VID: Improving Event-Based Video Reconstruction via Hypernetworks [16.432164340779266]
イベントベースビデオ再構成のための動的ニューラルネットワークアーキテクチャであるHyperE2VIDを提案する。
提案手法では,ハイパーネットワークを用いてコンテキスト融合モジュールによって誘導される画素ごとの適応フィルタを生成する。
論文 参考訳(メタデータ) (2023-05-10T18:00:06Z) - Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。
深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文 参考訳(メタデータ) (2023-02-17T14:19:28Z) - E2V-SDE: From Asynchronous Events to Fast and Continuous Video
Reconstruction via Neural Stochastic Differential Equations [23.866475611205736]
イベントカメラは、各ピクセルに対して非同期かつ独立にシーンの明るさ変化に応答する。
E2V-SDEは任意の時間ステップで画像を迅速に再構成し、目に見えないデータに対して現実的な予測を行うことができる。
画像品質の面では、LPIPSスコアは最大12%向上し、再構築速度はET-Netよりも87%高い。
論文 参考訳(メタデータ) (2022-06-15T15:05:10Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z) - Reducing the Sim-to-Real Gap for Event Cameras [64.89183456212069]
イベントカメラは、非同期でピクセルごとの明るさ変化を報告し、非並列の低レイテンシで「イベント」と呼ばれるパラダイムシフトする新しいセンサーである。
近年の研究では、コンボリューショナルニューラルネットワーク(CNN)を用いて、映像再構成とイベントによる光学的流れを実証している。
既存のビデオ再構成ネットワークの性能を20~40%向上させるイベントベースCNNのトレーニングデータ改善戦略を提案する。
論文 参考訳(メタデータ) (2020-03-20T02:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。