論文の概要: ISTASTrack: Bridging ANN and SNN via ISTA Adapter for RGB-Event Tracking
- arxiv url: http://arxiv.org/abs/2509.09977v1
- Date: Fri, 12 Sep 2025 05:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.984396
- Title: ISTASTrack: Bridging ANN and SNN via ISTA Adapter for RGB-Event Tracking
- Title(参考訳): ISTASTrack: RGBイベントトラッキング用のISTAアダプタによるANNとSNNのブリッジ
- Authors: Siying Liu, Zikai Wang, Hanle Zheng, Yifan Hu, Xilin Wang, Qingkai Yang, Jibin Wu, Hao Guo, Lei Deng,
- Abstract要約: ISTASTrackは、最初のトランスフォーマーベースの textbfA textNN-bfSNN hybrid textbfTracker で、RGB-Event トラッキング用の textbfISTA アダプタを備えている。
ISTASTrackは高エネルギー効率を保ちながら最先端の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 23.729878201608585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-Event tracking has become a promising trend in visual object tracking to leverage the complementary strengths of both RGB images and dynamic spike events for improved performance. However, existing artificial neural networks (ANNs) struggle to fully exploit the sparse and asynchronous nature of event streams. Recent efforts toward hybrid architectures combining ANNs and spiking neural networks (SNNs) have emerged as a promising solution in RGB-Event perception, yet effectively fusing features across heterogeneous paradigms remains a challenge. In this work, we propose ISTASTrack, the first transformer-based \textbf{A}NN-\textbf{S}NN hybrid \textbf{Track}er equipped with \textbf{ISTA} adapters for RGB-Event tracking. The two-branch model employs a vision transformer to extract spatial context from RGB inputs and a spiking transformer to capture spatio-temporal dynamics from event streams. To bridge the modality and paradigm gap between ANN and SNN features, we systematically design a model-based ISTA adapter for bidirectional feature interaction between the two branches, derived from sparse representation theory by unfolding the iterative shrinkage thresholding algorithm. Additionally, we incorporate a temporal downsampling attention module within the adapter to align multi-step SNN features with single-step ANN features in the latent space, improving temporal fusion. Experimental results on RGB-Event tracking benchmarks, such as FE240hz, VisEvent, COESOT, and FELT, have demonstrated that ISTASTrack achieves state-of-the-art performance while maintaining high energy efficiency, highlighting the effectiveness and practicality of hybrid ANN-SNN designs for robust visual tracking. The code is publicly available at https://github.com/lsying009/ISTASTrack.git.
- Abstract(参考訳): RGB-Eventトラッキングは、RGBイメージとダイナミックスパイクイベントの相補的な強度を活用してパフォーマンスを向上させるために、視覚オブジェクトトラッキングにおいて有望なトレンドとなっている。
しかし、既存の人工知能ニューラルネットワーク(ANN)は、イベントストリームのスパースで非同期性を完全に活用するのに苦労している。
ANNとスパイキングニューラルネットワーク(SNN)を組み合わせたハイブリッドアーキテクチャへの最近の取り組みは、RGB-Eventの認識において有望なソリューションとして現れている。
本稿では,RGB-Eventトラッキングのための,最初のトランスフォーマーベース \textbf{A}NN-\textbf{S}NN ハイブリッド \textbf{Track}er である ISTASTrack を提案する。
2分岐モデルでは、RGB入力から空間コンテキストを抽出する視覚変換器と、イベントストリームから時空間の時空間ダイナミクスをキャプチャするスパイキング変換器を用いる。
ANNとSNNの特徴間のモダリティとパラダイムギャップを橋渡しするために、反復縮小しきい値アルゴリズムを展開させることによりスパース表現理論から導かれる2つの分岐間の双方向特徴相互作用のためのモデルベースISTAアダプタを体系的に設計する。
さらに,複数ステップのSNN特徴と1ステップのANN特徴とを対応付けるために,アダプタ内に時間的ダウンサンプリングアテンションモジュールを組み込み,時間的融合を改善した。
FE240hz, VisEvent, COESOT, FELTなどのRGBイベント追跡ベンチマークの実験結果から, ISTASTrackは高エネルギー効率を維持しながら最先端の性能を実現し, 堅牢なビジュアルトラッキングのためのハイブリッドANN-SNNの設計の有効性と実用性を強調した。
コードはhttps://github.com/lsying009/ISTASTrack.gitで公開されている。
関連論文リスト
- SDTrack: A Baseline for Event-based Tracking via Spiking Neural Networks [12.296877085867164]
スパイクニューラルネットワーク(SNN)は、離散的なスパイク信号を通じてイベントデータを自然に補完し、イベントベースのトラッキングに最適である。
本稿では,Transformerベースのスパイク駆動型トラッキングパイプラインを提案する。
我々のGTP(Global Trajectory Prompt)法は,グローバルなトラジェクトリ情報を効果的にキャプチャし,イベントストリームをイベントイメージに集約する。
次に,SDTrackを紹介した。これはTransformerベースのスパイク駆動トラッカーで,スパイク信号を用いて正規化座標を予測するSpking MetaFormerバックボーンとトラッキングヘッドを備える。
論文 参考訳(メタデータ) (2025-03-09T02:01:40Z) - HDI-Former: Hybrid Dynamic Interaction ANN-SNN Transformer for Object Detection Using Frames and Events [44.20745133222306]
HDI-Formerは、高精度でエネルギー効率の良い物体検出のためのハイブリッド動的相互作用ANN-SNN変換器である。
まず,ANNトランスフォーマブランチ内の画像エンコーディングトークン間の相関性を強化する,セマンティック・エンハンスド・セルフアテンション機構を提案する。
次に、低消費電力のイベントストリームから時空間キューをモデル化するSpking Swin Transformerブランチを設計する。
論文 参考訳(メタデータ) (2024-11-27T09:32:41Z) - Best of Both Worlds: Hybrid SNN-ANN Architecture for Event-based Optical Flow Estimation [12.611797572621398]
非同期イベント駆動型計算でニューラルネットワーク(SNN)をスパイクすることは、イベントストリームから機能を抽出する大きな可能性を秘めている。
本稿では,両者の強みを組み合わせた新しいSNN-ANNハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-05T15:26:02Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。