論文の概要: Unifying Event-based Flow, Stereo and Depth Estimation via Feature Similarity Matching
- arxiv url: http://arxiv.org/abs/2407.21735v1
- Date: Wed, 31 Jul 2024 16:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 12:08:13.031588
- Title: Unifying Event-based Flow, Stereo and Depth Estimation via Feature Similarity Matching
- Title(参考訳): 特徴類似性マッチングによるイベントベースフロー, ステレオ, 深さ推定の統一
- Authors: Pengjie Zhang, Lin Zhu, Lizhi Wang, Hua Huang,
- Abstract要約: イベントカメラは、光学フロー推定、ステレオマッチング、深さ推定などの様々な視覚タスクで人気を博している。
本稿では,これらのタスクをイベントベースの高密度対応マッチング問題として再構成する統合フレームワークであるEventMatchを提案する。
本モデルでは,光学的フローと不均一性推定の両方において優れた性能を示し,既存の最先端手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 21.71115793248267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an emerging vision sensor, the event camera has gained popularity in various vision tasks such as optical flow estimation, stereo matching, and depth estimation due to its high-speed, sparse, and asynchronous event streams. Unlike traditional approaches that use specialized architectures for each specific task, we propose a unified framework, EventMatch, that reformulates these tasks as an event-based dense correspondence matching problem, allowing them to be solved with a single model by directly comparing feature similarities. By utilizing a shared feature similarities module, which integrates knowledge from other event flows via temporal or spatial interactions, and distinct task heads, our network can concurrently perform optical flow estimation from temporal inputs (e.g., two segments of event streams in the temporal domain) and stereo matching from spatial inputs (e.g., two segments of event streams from different viewpoints in the spatial domain). Moreover, we further demonstrate that our unified model inherently supports cross-task transfer since the architecture and parameters are shared across tasks. Without the need for retraining on each task, our model can effectively handle both optical flow and disparity estimation simultaneously. The experiment conducted on the DSEC benchmark demonstrates that our model exhibits superior performance in both optical flow and disparity estimation tasks, outperforming existing state-of-the-art methods. Our unified approach not only advances event-based models but also opens new possibilities for cross-task transfer and inter-task fusion in both spatial and temporal dimensions. Our code will be available later.
- Abstract(参考訳): 新たな視覚センサとして、このイベントカメラは、高速でスパースで非同期なイベントストリームのため、光学フロー推定、ステレオマッチング、深さ推定などの様々なビジョンタスクで人気を博している。
特定のタスクごとに特別なアーキテクチャを使用する従来のアプローチとは異なり、これらのタスクをイベントベースの高密度対応マッチング問題として再構成する統合フレームワークであるEventMatchを提案し、特徴の類似性を直接比較することで、単一のモデルで解決することができる。
時間的・空間的相互作用による他のイベントフローと異なるタスクヘッドによる知識を統合した共有特徴類似モジュールを利用することで、時間的入力(例えば、時間的領域におけるイベントストリームの2つのセグメント)と空間的入力(例えば、空間的領域における異なる視点からのイベントストリームの2つのセグメント)から光学的フロー推定を同時に行うことができる。
さらに、アーキテクチャとパラメータがタスク間で共有されているため、我々の統一モデルは本質的にクロスタスク転送をサポートすることを実証する。
タスク毎に再トレーニングを行う必要がなく,光学的フローと不均一性推定の両方を同時に処理することが可能である。
DSECベンチマークで行った実験は、我々のモデルは、既存の最先端手法よりも優れた光学的フローと不均一性推定タスクにおいて優れた性能を示すことを示した。
我々の統一的アプローチは、イベントベースモデルだけでなく、空間次元と時間次元の両方において、クロスタスク転送とタスク間融合の新たな可能性を開く。
私たちのコードは後で入手できます。
関連論文リスト
- Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。
現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文 参考訳(メタデータ) (2024-04-29T08:50:27Z) - Fast Window-Based Event Denoising with Spatiotemporal Correlation
Enhancement [85.66867277156089]
同時にイベントのスタックを扱うウィンドウベースのイベントデノゲーションを提案する。
空間領域では、実世界の事象と雑音を識別するために、最大後部(MAP)を選択する。
我々のアルゴリズムは、イベントノイズを効果的かつ効率的に除去し、下流タスクの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-02-14T15:56:42Z) - Representation Learning on Event Stream via an Elastic Net-incorporated
Tensor Network [1.9515859963221267]
本稿では,イベントストリーム中のすべてのイベントのグローバルな相関を同時に取得できる新しい表現法を提案する。
本手法は, 最先端手法と比較して, フィルタノイズなどの応用において有効な結果が得られる。
論文 参考訳(メタデータ) (2024-01-16T02:51:47Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Event-Based Frame Interpolation with Ad-hoc Deblurring [68.97825675372354]
本稿では,入力ビデオのアドホックを損なうイベントベースフレームの一般的な手法を提案する。
我々のネットワークは、フレーム上の最先端の手法、単一画像のデブロアリング、および共同作業のデブロアリングを一貫して上回ります。
コードとデータセットは公開されます。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。