論文の概要: EMatch: A Unified Framework for Event-based Optical Flow and Stereo Matching
- arxiv url: http://arxiv.org/abs/2407.21735v2
- Date: Fri, 22 Nov 2024 03:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:19.104344
- Title: EMatch: A Unified Framework for Event-based Optical Flow and Stereo Matching
- Title(参考訳): EMatch: イベントベースの光フローとステレオマッチングのための統一フレームワーク
- Authors: Pengjie Zhang, Lin Zhu, Xiao Wang, Lizhi Wang, Wanxuan Lu, Hua Huang,
- Abstract要約: イベントカメラは光学的フロー推定やステレオマッチングといった視覚的応用において有望であることを示している。
イベントベースフロー推定とステレオマッチングを統合された高密度対応マッチング問題として再構成する。
本モデルでは,光学的フローとステレオ推定の両方を効果的に処理し,両タスクの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 23.54420911697424
- License:
- Abstract: Event cameras have shown promise in vision applications like optical flow estimation and stereo matching, with many specialized architectures leveraging the asynchronous and sparse nature of event data. However, existing works only focus event data within the confines of task-specific domains, overlooking how tasks across the temporal and spatial domains can reinforce each other. In this paper, we reformulate event-based flow estimation and stereo matching as a unified dense correspondence matching problem, enabling us to solve both tasks within a single model by directly matching features in a shared representation space. Specifically, our method utilizes a Temporal Recurrent Network to aggregate event features across temporal or spatial domains, and a Spatial Contextual Attention to enhance knowledge transfer across event flows via temporal or spatial interactions. By utilizing a shared feature similarities module that integrates knowledge from event streams via temporal or spatial interactions, our network performs optical flow estimation from temporal event segment inputs and stereo matching from spatial event segment inputs simultaneously. We demonstrate that our unified model inherently supports multi-task fusion and cross-task transfer. Without the need for retraining for specific task, our model can effectively handle both optical flow and stereo estimation, achieving state-of-the-art performance on both tasks.
- Abstract(参考訳): イベントカメラは、光学フロー推定やステレオマッチングといった視覚的応用において、非同期でスパースなイベントデータを利用した多くの特殊なアーキテクチャを約束している。
しかし、既存の作業は、時間的および空間的領域にわたるタスクが相互に強化できる方法を見越して、タスク固有の領域内のイベントデータのみに焦点を当てている。
本稿では,イベントベースフロー推定とステレオマッチングを統合密一致マッチング問題として再構成し,共有表現空間における特徴を直接マッチングすることにより,単一モデル内で両方のタスクを解くことができる。
具体的には,時間的・空間的な領域にまたがる事象の特徴を集約する時間的リカレントネットワークと,時間的・空間的相互作用を通じてイベントフロー間の知識伝達を強化する空間的コンテキストアテンションを利用する。
時間的または空間的相互作用を通じてイベントストリームからの知識を統合する共有特徴類似性モジュールを利用することで,時間的イベントセグメント入力と空間的イベントセグメント入力とのステレオマッチングを同時に行う。
統合モデルが本質的にマルチタスク融合とクロスタスク転送をサポートすることを示す。
特定のタスクのトレーニングを必要とせず、我々のモデルは光学的フローとステレオ推定の両方を効果的に処理することができ、両方のタスクで最先端のパフォーマンスを達成することができる。
関連論文リスト
- EvRepSL: Event-Stream Representation via Self-Supervised Learning for Event-Based Vision [12.542303392870329]
イベントストリーム表現は、多くのコンピュータビジョンタスクにおいて、イベントカメラを使用した最初のステップである。
イベントストリーム表現の品質向上を目的としたデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T00:42:54Z) - Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所性対応対応補正 (LCC) を非モーダル特徴に適用する。
さらにクロスモーダル・ダイナミック・パーセプション・レイヤ(CDP)をクロスモーダル・フィーチャー・ピラミッドでカスタマイズし、音声視覚イベントの局所的時間パターンを理解する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。
現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文 参考訳(メタデータ) (2024-04-29T08:50:27Z) - Fast Window-Based Event Denoising with Spatiotemporal Correlation
Enhancement [85.66867277156089]
同時にイベントのスタックを扱うウィンドウベースのイベントデノゲーションを提案する。
空間領域では、実世界の事象と雑音を識別するために、最大後部(MAP)を選択する。
我々のアルゴリズムは、イベントノイズを効果的かつ効率的に除去し、下流タスクの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-02-14T15:56:42Z) - Representation Learning on Event Stream via an Elastic Net-incorporated
Tensor Network [1.9515859963221267]
本稿では,イベントストリーム中のすべてのイベントのグローバルな相関を同時に取得できる新しい表現法を提案する。
本手法は, 最先端手法と比較して, フィルタノイズなどの応用において有効な結果が得られる。
論文 参考訳(メタデータ) (2024-01-16T02:51:47Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。