論文の概要: Fully Spiking Neural Networks for Unified Frame-Event Object Tracking
- arxiv url: http://arxiv.org/abs/2505.20834v1
- Date: Tue, 27 May 2025 07:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.484325
- Title: Fully Spiking Neural Networks for Unified Frame-Event Object Tracking
- Title(参考訳): 統合フレームイベントオブジェクト追跡のための完全スパイクニューラルネットワーク
- Authors: Jingjun Yang, Liangwei Fan, Jinpu Zhang, Xiangkai Lian, Hui Shen, Dewen Hu,
- Abstract要約: フレームとイベントデータを融合するために、スパイキングフレームイベント追跡フレームワークが提案されている。
RPMは位置バイアスのランダム化空間再構成と学習可能な型符号化を除去する。
STR戦略は、潜在空間におけるテンプレート機能間の時間的一貫性を強制する。
- 参考スコア(独自算出の注目度): 11.727693745877486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of image and event streams offers a promising approach for achieving robust visual object tracking in complex environments. However, current fusion methods achieve high performance at the cost of significant computational overhead and struggle to efficiently extract the sparse, asynchronous information from event streams, failing to leverage the energy-efficient advantages of event-driven spiking paradigms. To address this challenge, we propose the first fully Spiking Frame-Event Tracking framework called SpikeFET. This network achieves synergistic integration of convolutional local feature extraction and Transformer-based global modeling within the spiking paradigm, effectively fusing frame and event data. To overcome the degradation of translation invariance caused by convolutional padding, we introduce a Random Patchwork Module (RPM) that eliminates positional bias through randomized spatial reorganization and learnable type encoding while preserving residual structures. Furthermore, we propose a Spatial-Temporal Regularization (STR) strategy that overcomes similarity metric degradation from asymmetric features by enforcing spatio-temporal consistency among temporal template features in latent space. Extensive experiments across multiple benchmarks demonstrate that the proposed framework achieves superior tracking accuracy over existing methods while significantly reducing power consumption, attaining an optimal balance between performance and efficiency. The code will be released.
- Abstract(参考訳): 画像とイベントストリームの統合は、複雑な環境で堅牢なビジュアルオブジェクト追跡を実現するための有望なアプローチを提供する。
しかし、現在の核融合法は、計算オーバーヘッドの大きいコストで高い性能を達成し、イベントストリームからスパースで非同期な情報を効率的に抽出するのに苦労し、イベント駆動スパイキングパラダイムのエネルギー効率の良い利点を活用できない。
この課題に対処するために、SpikeFETと呼ばれる、最初の完全にスパイキングされたフレームイベント追跡フレームワークを提案する。
このネットワークは、進化的局所特徴抽出とトランスフォーマーに基づくグローバルモデリングをスパイキングパラダイム内で相乗的に統合し、フレームとイベントデータを効果的に融合させる。
畳み込み型パディングによる翻訳不変性の劣化を克服するため,ランダム化された空間再構成と学習可能な型符号化による位置バイアスを排除し,残余構造を保存したランダム・パッチワーク・モジュール(RPM)を導入する。
さらに,時空間における時間的テンプレート特徴間の時空間的一貫性を強制することにより,非対称特徴からの類似度メトリック劣化を克服する時空間正規化(STR)戦略を提案する。
複数のベンチマークを対象とした大規模な実験により,提案手法は既存の手法よりも優れたトラッキング精度を実現し,消費電力を大幅に削減し,性能と効率の最適なバランスが得られた。
コードはリリースされます。
関連論文リスト
- ACMamba: Fast Unsupervised Anomaly Detection via An Asymmetrical Consensus State Space Model [51.83639270669481]
ハイパースペクトル画像(HSI)における教師なし異常検出は、背景から未知のターゲットを検出することを目的としている。
HSI研究は、HSIの高次元特性と高密度サンプリングベーストレーニングパラダイムにより、計算コストの急激さによって妨げられている。
計算コストを大幅に削減する非対称コンセンサス状態空間モデル(ACMamba)を提案する。
論文 参考訳(メタデータ) (2025-04-16T05:33:42Z) - Event Signal Filtering via Probability Flux Estimation [58.31652473933809]
イベントは、非同期センシングを通じてシーンダイナミクスをキャプチャするための新しいパラダイムを提供するが、その固有のランダム性は、しばしば劣化した信号品質につながる。
したがって、イベント信号フィルタリングは、この内部ランダム性を低減し、多様な取得条件をまたいだ一貫した出力を確保することで、忠実性を高めるために不可欠である。
本稿ではイベント密度フローフィルタ(EDFilter)と呼ばれる生成オンラインフィルタリングフレームワークを紹介する。
実験では、イベントフィルタリング、スーパーレゾリューション、イベントベースの直接追跡といったタスクでEDFilterのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-04-10T07:03:08Z) - Federated Smoothing ADMM for Localization [9.25126455172971]
フェデレートされたシステムは、分散データ、非滑らか性、非滑らか性によって特徴づけられる。
このような環境に固有のスケーラビリティと外乱問題に対処する頑健なアルゴリズムを提案する。
提案アルゴリズムの信頼性を検証するため,定常点に収束することを示す。
数値シミュレーションは、既存の最先端ローカライゼーション法と比較して収束レジリエンスの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-03-12T16:01:34Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Split-Boost Neural Networks [1.1549572298362787]
本稿では,スプリットブートと呼ばれるフィードフォワードアーキテクチャの革新的なトレーニング戦略を提案する。
このような新しいアプローチは、最終的に正規化項を明示的にモデル化することを避けることができる。
提案した戦略は、ベンチマーク医療保険設計問題内の実世界の(匿名化された)データセットでテストされる。
論文 参考訳(メタデータ) (2023-09-06T17:08:57Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Contextual Model Aggregation for Fast and Robust Federated Learning in
Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。
既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。
そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T21:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。