Fugu-MT 論文翻訳(概要): Unifying Event-based Flow, Stereo and Depth Estimation via Feature Similarity Matching

論文の概要: Unifying Event-based Flow, Stereo and Depth Estimation via Feature Similarity Matching

arxiv url: http://arxiv.org/abs/2407.21735v1
Date: Wed, 31 Jul 2024 16:43:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 12:08:13.031588
Title: Unifying Event-based Flow, Stereo and Depth Estimation via Feature Similarity Matching
Title（参考訳）: 特徴類似性マッチングによるイベントベースフロー, ステレオ, 深さ推定の統一
Authors: Pengjie Zhang, Lin Zhu, Lizhi Wang, Hua Huang,
Abstract要約: イベントカメラは、光学フロー推定、ステレオマッチング、深さ推定などの様々な視覚タスクで人気を博している。本稿では,これらのタスクをイベントベースの高密度対応マッチング問題として再構成する統合フレームワークであるEventMatchを提案する。本モデルでは,光学的フローと不均一性推定の両方において優れた性能を示し,既存の最先端手法よりも優れた性能を示す。
参考スコア（独自算出の注目度）: 21.71115793248267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As an emerging vision sensor, the event camera has gained popularity in various vision tasks such as optical flow estimation, stereo matching, and depth estimation due to its high-speed, sparse, and asynchronous event streams. Unlike traditional approaches that use specialized architectures for each specific task, we propose a unified framework, EventMatch, that reformulates these tasks as an event-based dense correspondence matching problem, allowing them to be solved with a single model by directly comparing feature similarities. By utilizing a shared feature similarities module, which integrates knowledge from other event flows via temporal or spatial interactions, and distinct task heads, our network can concurrently perform optical flow estimation from temporal inputs (e.g., two segments of event streams in the temporal domain) and stereo matching from spatial inputs (e.g., two segments of event streams from different viewpoints in the spatial domain). Moreover, we further demonstrate that our unified model inherently supports cross-task transfer since the architecture and parameters are shared across tasks. Without the need for retraining on each task, our model can effectively handle both optical flow and disparity estimation simultaneously. The experiment conducted on the DSEC benchmark demonstrates that our model exhibits superior performance in both optical flow and disparity estimation tasks, outperforming existing state-of-the-art methods. Our unified approach not only advances event-based models but also opens new possibilities for cross-task transfer and inter-task fusion in both spatial and temporal dimensions. Our code will be available later.
Abstract（参考訳）: 新たな視覚センサとして、このイベントカメラは、高速でスパースで非同期なイベントストリームのため、光学フロー推定、ステレオマッチング、深さ推定などの様々なビジョンタスクで人気を博している。特定のタスクごとに特別なアーキテクチャを使用する従来のアプローチとは異なり、これらのタスクをイベントベースの高密度対応マッチング問題として再構成する統合フレームワークであるEventMatchを提案し、特徴の類似性を直接比較することで、単一のモデルで解決することができる。時間的・空間的相互作用による他のイベントフローと異なるタスクヘッドによる知識を統合した共有特徴類似モジュールを利用することで、時間的入力(例えば、時間的領域におけるイベントストリームの2つのセグメント)と空間的入力(例えば、空間的領域における異なる視点からのイベントストリームの2つのセグメント)から光学的フロー推定を同時に行うことができる。さらに、アーキテクチャとパラメータがタスク間で共有されているため、我々の統一モデルは本質的にクロスタスク転送をサポートすることを実証する。タスク毎に再トレーニングを行う必要がなく,光学的フローと不均一性推定の両方を同時に処理することが可能である。 DSECベンチマークで行った実験は、我々のモデルは、既存の最先端手法よりも優れた光学的フローと不均一性推定タスクにおいて優れた性能を示すことを示した。我々の統一的アプローチは、イベントベースモデルだけでなく、空間次元と時間次元の両方において、クロスタスク転送とタスク間融合の新たな可能性を開く。私たちのコードは後で入手できます。

関連論文リスト

CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization [15.861700882671418]
本稿では,新たな弱教師付き設定(W-DAVELタスク)の下でDAVELを探索する。我々は、弱い監督下でよく予測される信頼性の高いタイムスタンプとして定義されるテキストクロスモーダルなサリエントアンカーを利用する。我々は、UnAV-100とActivityNet1.3データセットの両方でW-DAVELのベンチマークを構築した。
論文参考訳（メタデータ） (2025-08-06T15:49:53Z)
EvRepSL: Event-Stream Representation via Self-Supervised Learning for Event-Based Vision [12.542303392870329]
イベントストリーム表現は、多くのコンピュータビジョンタスクにおいて、イベントカメラを使用した最初のステップである。イベントストリーム表現の品質向上を目的としたデータ駆動型手法を提案する。
論文参考訳（メタデータ） (2024-12-10T00:42:54Z)
Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文参考訳（メタデータ） (2024-09-26T06:12:08Z)
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。 DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文参考訳（メタデータ） (2024-09-12T11:54:25Z)
RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。 RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文参考訳（メタデータ） (2024-07-15T16:25:07Z)
Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文参考訳（メタデータ） (2024-04-29T08:50:27Z)
Fast Window-Based Event Denoising with Spatiotemporal Correlation Enhancement [85.66867277156089]
同時にイベントのスタックを扱うウィンドウベースのイベントデノゲーションを提案する。空間領域では、実世界の事象と雑音を識別するために、最大後部(MAP)を選択する。我々のアルゴリズムは、イベントノイズを効果的かつ効率的に除去し、下流タスクの性能を向上させることができる。
論文参考訳（メタデータ） (2024-02-14T15:56:42Z)
Representation Learning on Event Stream via an Elastic Net-incorporated Tensor Network [1.9515859963221267]
本稿では,イベントストリーム中のすべてのイベントのグローバルな相関を同時に取得できる新しい表現法を提案する。本手法は, 最先端手法と比較して, フィルタノイズなどの応用において有効な結果が得られる。
論文参考訳（メタデータ） (2024-01-16T02:51:47Z)
Dual Memory Aggregation Network for Event-Based Object Detection with Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文参考訳（メタデータ） (2023-03-17T12:12:41Z)
Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-03-07T12:48:02Z)
Event-Based Frame Interpolation with Ad-hoc Deblurring [68.97825675372354]
本稿では,入力ビデオのアドホックを損なうイベントベースフレームの一般的な手法を提案する。我々のネットワークは、フレーム上の最先端の手法、単一画像のデブロアリング、および共同作業のデブロアリングを一貫して上回ります。コードとデータセットは公開されます。
論文参考訳（メタデータ） (2023-01-12T18:19:00Z)
Unifying Event Detection and Captioning as Sequence Generation via Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文参考訳（メタデータ） (2022-07-18T14:18:13Z)
Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文参考訳（メタデータ） (2022-04-11T15:05:06Z)
Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文参考訳（メタデータ） (2020-09-23T10:40:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。