論文の概要: Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2601.01022v1
- Date: Sat, 03 Jan 2026 01:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.947147
- Title: Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
- Title(参考訳): RGBイベントに基づくビジュアルオブジェクト追跡のための周波数領域における振幅と位相アテンションの分離
- Authors: Shiao Wang, Xiao Wang, Haonan Zhao, Jiarui Xu, Bo Jiang, Lin Zhu, Xin Zhao, Yonghong Tian, Jin Tang,
- Abstract要約: 既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
- 参考スコア(独自算出の注目度): 51.31378940976401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing RGB-Event visual object tracking approaches primarily rely on conventional feature-level fusion, failing to fully exploit the unique advantages of event cameras. In particular, the high dynamic range and motion-sensitive nature of event cameras are often overlooked, while low-information regions are processed uniformly, leading to unnecessary computational overhead for the backbone network. To address these issues, we propose a novel tracking framework that performs early fusion in the frequency domain, enabling effective aggregation of high-frequency information from the event modality. Specifically, RGB and event modalities are transformed from the spatial domain to the frequency domain via the Fast Fourier Transform, with their amplitude and phase components decoupled. High-frequency event information is selectively fused into RGB modality through amplitude and phase attention, enhancing feature representation while substantially reducing backbone computation. In addition, a motion-guided spatial sparsification module leverages the motion-sensitive nature of event cameras to capture the relationship between target motion cues and spatial probability distribution, filtering out low-information regions and enhancing target-relevant features. Finally, a sparse set of target-relevant features is fed into the backbone network for learning, and the tracking head predicts the final target position. Extensive experiments on three widely used RGB-Event tracking benchmark datasets, including FE108, FELT, and COESOT, demonstrate the high performance and efficiency of our method. The source code of this paper will be released on https://github.com/Event-AHU/OpenEvTracking
- Abstract(参考訳): 既存のRGB-Eventビジュアルオブジェクト追跡アプローチは、主に従来の機能レベルの融合に依存しており、イベントカメラのユニークな利点を完全に活用することができない。
特に、イベントカメラの高ダイナミックレンジと動きに敏感な性質は見過ごされがちであるが、低情報領域は均一に処理され、バックボーンネットワークに不要な計算オーバーヘッドが生じる。
これらの問題に対処するために,周波数領域の早期融合を行う新しい追跡フレームワークを提案し,イベントのモダリティから高周波情報の効果的な集約を可能にする。
具体的には、RGBおよびイベントモダリティは、その振幅と位相成分を分離した高速フーリエ変換により、空間領域から周波数領域に変換される。
高周波イベント情報は振幅および位相注意によりRGBモダリティに選択的に融合され、バックボーン計算を大幅に削減しつつ特徴表現が向上する。
さらに、動き誘導型空間スペーシフィケーションモジュールは、イベントカメラの動作感受性特性を活用して、目標運動キューと空間確率分布の関係を捉え、低情報領域をフィルタリングし、目標関連特性を高める。
最後に、学習するバックボーンネットワークにターゲット関連機能のスパースセットを供給し、トラッキングヘッドが最終目標位置を予測する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットに対する大規模な実験により, 提案手法の性能と効率を実証した。
この論文のソースコードはhttps://github.com/Event-AHU/OpenEvTrackingで公開される。
関連論文リスト
- Frequency-Adaptive Low-Latency Object Detection Using Events and Frames [23.786369609995013]
オブジェクト検出のためのFusing EventsとRGBイメージは、悪環境におけるEvent Cameraの堅牢性を活用する。
2つの重要なミスマッチ:低遅延イベント textitvs.high-latency RGB frame と時間的にスパースなラベル。
textbfFrequency-textbfAdaptive Low-Latency textbfObject textbfDetector (FAOD)を提案する。
論文 参考訳(メタデータ) (2024-12-05T13:23:06Z) - Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。