論文の概要: Unifying Event-based Flow, Stereo and Depth Estimation via Feature Similarity Matching
- arxiv url: http://arxiv.org/abs/2407.21735v1
- Date: Wed, 31 Jul 2024 16:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 12:08:13.031588
- Title: Unifying Event-based Flow, Stereo and Depth Estimation via Feature Similarity Matching
- Title(参考訳): 特徴類似性マッチングによるイベントベースフロー, ステレオ, 深さ推定の統一
- Authors: Pengjie Zhang, Lin Zhu, Lizhi Wang, Hua Huang,
- Abstract要約: イベントカメラは、光学フロー推定、ステレオマッチング、深さ推定などの様々な視覚タスクで人気を博している。
本稿では,これらのタスクをイベントベースの高密度対応マッチング問題として再構成する統合フレームワークであるEventMatchを提案する。
本モデルでは,光学的フローと不均一性推定の両方において優れた性能を示し,既存の最先端手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 21.71115793248267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an emerging vision sensor, the event camera has gained popularity in various vision tasks such as optical flow estimation, stereo matching, and depth estimation due to its high-speed, sparse, and asynchronous event streams. Unlike traditional approaches that use specialized architectures for each specific task, we propose a unified framework, EventMatch, that reformulates these tasks as an event-based dense correspondence matching problem, allowing them to be solved with a single model by directly comparing feature similarities. By utilizing a shared feature similarities module, which integrates knowledge from other event flows via temporal or spatial interactions, and distinct task heads, our network can concurrently perform optical flow estimation from temporal inputs (e.g., two segments of event streams in the temporal domain) and stereo matching from spatial inputs (e.g., two segments of event streams from different viewpoints in the spatial domain). Moreover, we further demonstrate that our unified model inherently supports cross-task transfer since the architecture and parameters are shared across tasks. Without the need for retraining on each task, our model can effectively handle both optical flow and disparity estimation simultaneously. The experiment conducted on the DSEC benchmark demonstrates that our model exhibits superior performance in both optical flow and disparity estimation tasks, outperforming existing state-of-the-art methods. Our unified approach not only advances event-based models but also opens new possibilities for cross-task transfer and inter-task fusion in both spatial and temporal dimensions. Our code will be available later.
- Abstract(参考訳): 新たな視覚センサとして、このイベントカメラは、高速でスパースで非同期なイベントストリームのため、光学フロー推定、ステレオマッチング、深さ推定などの様々なビジョンタスクで人気を博している。
特定のタスクごとに特別なアーキテクチャを使用する従来のアプローチとは異なり、これらのタスクをイベントベースの高密度対応マッチング問題として再構成する統合フレームワークであるEventMatchを提案し、特徴の類似性を直接比較することで、単一のモデルで解決することができる。
時間的・空間的相互作用による他のイベントフローと異なるタスクヘッドによる知識を統合した共有特徴類似モジュールを利用することで、時間的入力(例えば、時間的領域におけるイベントストリームの2つのセグメント)と空間的入力(例えば、空間的領域における異なる視点からのイベントストリームの2つのセグメント)から光学的フロー推定を同時に行うことができる。
さらに、アーキテクチャとパラメータがタスク間で共有されているため、我々の統一モデルは本質的にクロスタスク転送をサポートすることを実証する。
タスク毎に再トレーニングを行う必要がなく,光学的フローと不均一性推定の両方を同時に処理することが可能である。
DSECベンチマークで行った実験は、我々のモデルは、既存の最先端手法よりも優れた光学的フローと不均一性推定タスクにおいて優れた性能を示すことを示した。
我々の統一的アプローチは、イベントベースモデルだけでなく、空間次元と時間次元の両方において、クロスタスク転送とタスク間融合の新たな可能性を開く。
私たちのコードは後で入手できます。
関連論文リスト
- RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Vector-Symbolic Architecture for Event-Based Optical Flow [18.261064372829164]
本稿では,Vector Architectures(VSA)を利用した,実効的でロバストな高次元特徴記述子を提案する。
本稿では、モデルベース(VSA-Flow)と自己教師あり学習(VSA-SM)の両方を包含した、イベントベースの光フローのための新しい特徴マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-14T03:50:07Z) - Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。
現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文 参考訳(メタデータ) (2024-04-29T08:50:27Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。