Fugu-MT 論文翻訳(概要): LaSe-E2V: Towards Language-guided Semantic-Aware Event-to-Video Reconstruction

論文の概要: LaSe-E2V: Towards Language-guided Semantic-Aware Event-to-Video Reconstruction

arxiv url: http://arxiv.org/abs/2407.05547v3
Date: Wed, 17 Jul 2024 13:48:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 21:38:02.830092
Title: LaSe-E2V: Towards Language-guided Semantic-Aware Event-to-Video Reconstruction
Title（参考訳）: LaSe-E2V:言語誘導型セマンティック・アウェア・イベント・ビデオ再構成を目指して
Authors: Kanghao Chen, Hangyu Li, JiaZhou Zhou, Zeyu Wang, Lin Wang,
Abstract要約: セマンティック・アウェアの高品質なE2V再構成を実現する新しいフレームワークであるLaSe-E2Vを提案する。まずイベント誘導時空間アテンション(ESA)モジュールを提案する。次に、時間的コヒーレンスを確保するためのイベント対応マスクロスと、空間的一貫性を高めるためのノイズ戦略を導入する。
参考スコア（独自算出の注目度）: 8.163356555241322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Event cameras harness advantages such as low latency, high temporal resolution, and high dynamic range (HDR), compared to standard cameras. Due to the distinct imaging paradigm shift, a dominant line of research focuses on event-to-video (E2V) reconstruction to bridge event-based and standard computer vision. However, this task remains challenging due to its inherently ill-posed nature: event cameras only detect the edge and motion information locally. Consequently, the reconstructed videos are often plagued by artifacts and regional blur, primarily caused by the ambiguous semantics of event data. In this paper, we find language naturally conveys abundant semantic information, rendering it stunningly superior in ensuring semantic consistency for E2V reconstruction. Accordingly, we propose a novel framework, called LaSe-E2V, that can achieve semantic-aware high-quality E2V reconstruction from a language-guided perspective, buttressed by the text-conditional diffusion models. However, due to diffusion models' inherent diversity and randomness, it is hardly possible to directly apply them to achieve spatial and temporal consistency for E2V reconstruction. Thus, we first propose an Event-guided Spatiotemporal Attention (ESA) module to condition the event data to the denoising pipeline effectively. We then introduce an event-aware mask loss to ensure temporal coherence and a noise initialization strategy to enhance spatial consistency. Given the absence of event-text-video paired data, we aggregate existing E2V datasets and generate textual descriptions using the tagging models for training and evaluation. Extensive experiments on three datasets covering diverse challenging scenarios (e.g., fast motion, low light) demonstrate the superiority of our method.
Abstract（参考訳）: イベントカメラは、標準カメラと比較して低レイテンシ、高時間分解能、高ダイナミックレンジ(HDR)などの利点を利用する。画像パラダイムの相違により、イベント・ツー・ビデオ(E2V)の再構築が主流となり、イベントベースと標準的なコンピュータビジョンが橋渡しされる。しかし、イベントカメラは、エッジとモーションの情報のみをローカルで検出する、本質的に不適切な性質のため、このタスクは依然として困難である。その結果、再構成されたビデオは、主にイベントデータのあいまいな意味論によって引き起こされる、アーティファクトや地域的曖昧さに悩まされることが多い。本稿では,言語は自然に豊富な意味情報を伝達し,E2V再構成のセマンティック一貫性を確保するのに驚くほど優れていることを示す。そこで本稿では,テキスト条件拡散モデルを用いて,言語誘導の観点から意味認識による高品質なE2V再構築を実現する,LaSe-E2Vという新しいフレームワークを提案する。しかし、拡散モデル固有の多様性とランダム性のため、E2V再構成のための空間的・時間的整合性を実現するために直接適用することは不可能である。そこで,まずイベント誘導時空間アテンション(ESA)モジュールを提案する。次に、時間的コヒーレンスを確保するためのイベント対応マスクロスと、空間的一貫性を高めるためのノイズ初期化戦略を導入する。イベントテキストとビデオのペアデータがないため、既存のE2Vデータセットを集約し、トレーニングと評価のためにタグ付けモデルを使用してテキスト記述を生成する。様々な難解なシナリオ(例えば、高速な動き、低光)をカバーする3つのデータセットの大規模な実験は、我々の手法の優位性を実証している。

関連論文リスト

EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文参考訳（メタデータ） (2024-10-20T13:44:24Z)
Finding Meaning in Points: Weakly Supervised Semantic Segmentation for Event Cameras [45.063747874243276]
本稿では,イベントベースセマンティックセマンティックセグメンテーションのための新しい弱教師付きアプローチEV-WSSSを提案する。提案フレームワークは,(1)前向きのイベントデータと(2)逆向きのイベントデータとの間に非対称な二重学習を行う。提案手法は,画素レベルの高密度地下真実に頼らずとも,かなりのセグメンテーション結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-15T20:00:50Z)
E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文参考訳（メタデータ） (2024-01-16T05:10:50Z)
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文参考訳（メタデータ） (2023-12-07T17:59:07Z)
Learning Parallax for Stereo Event-based Motion Deblurring [8.201943408103995]
既存のアプローチは、インテンシティ・イメージとイベントの間の完全なピクセルワイド・アライメントに依存している。我々は,Stereoイベントと強度カメラ(St-EDNet)を併用したイベントベース動作のNetwork of Event-based motionを提案する。我々はSTEIC(Stereo Event and Intensity Cameras)を用いた新しいデータセットを構築し、現実世界のイベント、強度画像、密度の異なるマップを含む。
論文参考訳（メタデータ） (2023-09-18T06:51:41Z)
HyperE2VID: Improving Event-Based Video Reconstruction via Hypernetworks [16.432164340779266]
イベントベースビデオ再構成のための動的ニューラルネットワークアーキテクチャであるHyperE2VIDを提案する。提案手法では,ハイパーネットワークを用いてコンテキスト融合モジュールによって誘導される画素ごとの適応フィルタを生成する。
論文参考訳（メタデータ） (2023-05-10T18:00:06Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
Dual Memory Aggregation Network for Event-Based Object Detection with Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文参考訳（メタデータ） (2023-03-17T12:12:41Z)
MEFNet: Multi-scale Event Fusion Network for Motion Deblurring [62.60878284671317]
従来のフレームベースのカメラは、長時間露光のために必然的に動きがぼやけている。バイオインスパイアされたカメラの一種として、イベントカメラは、高時間分解能で非同期な方法で強度変化を記録する。本稿では,イベントベースの画像劣化問題を再考し,これをエンドツーエンドの2段階画像復元ネットワークに展開する。
論文参考訳（メタデータ） (2021-11-30T23:18:35Z)
Learning to Detect Objects with a 1 Megapixel Event Camera [14.949946376335305]
イベントカメラは、高時間精度、低データレート、高ダイナミックレンジで視覚情報を符号化する。フィールドの新規性のため、多くのビジョンタスクにおけるイベントベースのシステムの性能は、従来のフレームベースのソリューションに比べて依然として低い。
論文参考訳（メタデータ） (2020-09-28T16:03:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。