論文の概要: FreqTrack: Frequency Learning based Vision Transformer for RGB-Event Object Tracking
- arxiv url: http://arxiv.org/abs/2604.14526v1
- Date: Thu, 16 Apr 2026 01:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.67283
- Title: FreqTrack: Frequency Learning based Vision Transformer for RGB-Event Object Tracking
- Title(参考訳): FreqTrack: RGBイベントオブジェクト追跡のための周波数学習ベースの視覚変換器
- Authors: Jinlin You, Muyu Li, Xudong Zhao,
- Abstract要約: FreqTrackは周波数対応のRGBEトラッキングフレームワークで、周波数領域変換を通じて相補的なモード間相関を確立する。
FreqTrackはCOESOTベンチマークで76.6%の精度を達成し、RGBE追跡における周波数領域モデリングの有効性を検証する。
- 参考スコア(独自算出の注目度): 9.837735583393266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing single-modal RGB trackers often face performance bottlenecks in complex dynamic scenes, while the introduction of event sensors offers new potential for enhancing tracking capabilities. However, most current RGB-event fusion methods, primarily designed in the spatial domain using convolutional, Transformer, or Mamba architectures, fail to fully exploit the unique temporal response and high-frequency characteristics of event data. To address this, we1 propose FreqTrack, a frequency-aware RGBE tracking framework that establishes complementary inter-modal correlations through frequency-domain transformations for more robust feature fusion. We design a Spectral Enhancement Transformer (SET) layer that incorporates multi-head dynamic Fourier filtering to adaptively enhance and select frequency-domain features. Additionally, we develop a Wavelet Edge Refinement (WER) module, which leverages learnable wavelet transforms to explicitly extract multi-scale edge structures from event data, effectively improving modeling capability in high-speed and low-light scenarios. Extensive experiments on the COESOT and FE108 datasets demonstrate that FreqTrack achieves highly competitive performance, particularly attaining leading precision of 76.6\% on the COESOT benchmark, validating the effectiveness of frequency-domain modeling for RGBE tracking.
- Abstract(参考訳): 既存のシングルモーダルなRGBトラッカーは複雑なダイナミックなシーンでパフォーマンス上のボトルネックに直面し、イベントセンサーの導入はトラッキング機能を強化する新たな可能性を提供する。
しかしながら、現在のRGB-event融合法のほとんどは、主に畳み込み、トランスフォーマー、またはマンバアーキテクチャを用いて空間領域で設計されており、イベントデータのユニークな時間応答と高周波特性を完全に活用することができない。
これを解決するために、FreqTrackを提案する。FreqTrackは周波数対応のRGBE追跡フレームワークで、周波数領域変換による相補的な相互相関を確立し、より堅牢な特徴融合を実現する。
マルチヘッドダイナミックフーリエフィルタを組み込んだスペクトル拡張トランス (SET) 層を設計し,周波数領域の特徴を適応的に拡張・選択する。
さらに、学習可能なウェーブレット変換を利用してイベントデータからマルチスケールエッジ構造を明示的に抽出するWavelet Edge Refinement (WER) モジュールを開発し、高速・低照度シナリオにおけるモデリング能力を効果的に改善する。
COESOTとFE108データセットの大規模な実験により、FreqTrackは高い競争性能を達成し、特にCOESOTベンチマークで76.6%の精度を達成し、RGBEトラッキングの周波数領域モデリングの有効性を検証した。
関連論文リスト
- Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking [51.31378940976401]
既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
論文 参考訳(メタデータ) (2026-01-03T01:10:17Z) - Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - Frequency Domain Enhanced U-Net for Low-Frequency Information-Rich Image Segmentation in Surgical and Deep-Sea Exploration Robots [34.28684917337352]
CNNと人間の視覚系における周波数帯域感度の差について検討する。
本稿では、生体視覚機構にインスパイアされたウェーブレット適応スペクトル融合(WASF)法を提案する。
我々は SAM2 のバックボーンネットワークを利用する FE-UNet モデルを開発し, セグメンテーション精度を確保するために細調整した Hiera-Large モジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies [59.10607296658509]
イベントカメラは、動的環境におけるリアルタイムの知覚に相容れないアドバンテージを提供する。
イベント検出器は固定周波数のパラダイムによって制限されており、イベントデータの高時間分解能と適応性を完全に活用できない。
我々は、様々な周波数で検出できる新しいフレームワークFlexEventを提案する。
論文 参考訳(メタデータ) (2024-12-09T17:57:14Z) - Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer [18.459822172890473]
骨格の周波数表現を除去するための周波数認識型アテンションモジュールを提案する。
また、周波数特徴を持つ空間特徴を組み込む混合変圧器アーキテクチャも開発している。
FreqMiXFormerは3つの一般的な骨格認識データセットでSOTAを上回っている。
論文 参考訳(メタデータ) (2024-07-17T05:47:27Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。