論文の概要: Efficient Spike-driven Transformer for High-performance Drone-View Geo-Localization
- arxiv url: http://arxiv.org/abs/2512.19365v1
- Date: Mon, 22 Dec 2025 13:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.762896
- Title: Efficient Spike-driven Transformer for High-performance Drone-View Geo-Localization
- Title(参考訳): 高性能ドローンビュージオローカライゼーションのためのスパイク駆動型高速変圧器
- Authors: Zhongwei Chen, Hai-Jun Rong, Zhao-Xu Yang, Guoqi Li,
- Abstract要約: SpikeViMFormerは、ドローンビューのジオローカライゼーション用に設計された最初のSNNフレームワークである。
粗粒状特徴を抽出するために軽量スパイク駆動変圧器バックボーンを採用する。
SpikeViMFormerは最先端のSNNよりも優れています。
- 参考スコア(独自算出の注目度): 20.603433987118837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional drone-view geo-localization (DVGL) methods based on artificial neural networks (ANNs) have achieved remarkable performance. However, ANNs rely on dense computation, which results in high power consumption. In contrast, spiking neural networks (SNNs), which benefit from spike-driven computation, inherently provide low power consumption. Regrettably, the potential of SNNs for DVGL has yet to be thoroughly investigated. Meanwhile, the inherent sparsity of spike-driven computation for representation learning scenarios also results in loss of critical information and difficulties in learning long-range dependencies when aligning heterogeneous visual data sources. To address these, we propose SpikeViMFormer, the first SNN framework designed for DVGL. In this framework, a lightweight spike-driven transformer backbone is adopted to extract coarse-grained features. To mitigate the loss of critical information, the spike-driven selective attention (SSA) block is designed, which uses a spike-driven gating mechanism to achieve selective feature enhancement and highlight discriminative regions. Furthermore, a spike-driven hybrid state space (SHS) block is introduced to learn long-range dependencies using a hybrid state space. Moreover, only the backbone is utilized during the inference stage to reduce computational cost. To ensure backbone effectiveness, a novel hierarchical re-ranking alignment learning (HRAL) strategy is proposed. It refines features via neighborhood re-ranking and maintains cross-batch consistency to directly optimize the backbone. Experimental results demonstrate that SpikeViMFormer outperforms state-of-the-art SNNs. Compared with advanced ANNs, it also achieves competitive performance.Our code is available at https://github.com/ISChenawei/SpikeViMFormer
- Abstract(参考訳): 人工ニューラルネットワーク(ANN)に基づく従来のドローンビュージオローカライゼーション(DVGL)手法は、優れた性能を達成している。
しかし、ANNは高消費電力となる高密度計算に依存している。
対照的に、スパイク駆動型計算の恩恵を受けるスパイクニューラルネットワーク(SNN)は、本質的に低消費電力を提供する。
しかし、DVGLのSNNの可能性はまだ十分に調査されていない。
一方、表現学習シナリオにおけるスパイク駆動計算の本質的にの空間性は、不均一な視覚データソースの整列時に重要な情報を失うことや、長距離依存を学習することの難しさをもたらす。
そこで我々はDVGL用に設計された最初のSNNフレームワークであるSpikeViMFormerを提案する。
このフレームワークでは、粗粒度の特徴を抽出するために、軽量スパイク駆動トランスフォーマーバックボーンが採用されている。
臨界情報の損失を軽減するため、スパイク駆動型選択的注意(SSA)ブロックを設計し、スパイク駆動型ゲーティング機構を用いて選択的特徴強調と識別領域の強調を行う。
さらに、スパイク駆動型ハイブリッド状態空間(SHS)ブロックを導入し、ハイブリッド状態空間を用いて長距離依存を学習する。
さらに、推論段階では、バックボーンのみを使用して計算コストを削減する。
バックボーンの有効性を確保するため,新しい階層的アライメント学習(HRAL)戦略を提案する。
地区を再ランク付けすることで機能を洗練し、バックボーンを直接最適化するためにクロスバッチ一貫性を維持する。
実験の結果,SpikeViMFormerは最先端のSNNよりも優れていた。
我々のコードはhttps://github.com/ISChenawei/SpikeViMFormerで入手できる。
関連論文リスト
- Self-cross Feature based Spiking Neural Networks for Efficient Few-shot Learning [16.156610945877986]
スパイキングニューラルネットワーク(SNN)に基づく数発の学習フレームワークを提案する。
列車の時間的スパイクダイナミクスを最適化し,識別力を高めるために,時間的効率的なトレーニング損失と情報損失の組み合わせを適用した。
論文 参考訳(メタデータ) (2025-05-12T16:51:08Z) - Spatiotemporal Graph Learning with Direct Volumetric Information Passing and Feature Enhancement [62.91536661584656]
本稿では,CeFeGNN(CeFeGNN)とCell-embeddedとFeature-enhanced Graph Neural Networkを学習用として提案する。
学習可能なセル属性を共通ノードエッジメッセージパッシングプロセスに埋め込むことで,地域特性の空間依存性をよりよく把握する。
各種PDEシステムと1つの実世界のデータセットを用いた実験により、CeFeGNNは他のベースラインと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-26T16:22:08Z) - Accelerating Convolutional Neural Network Pruning via Spatial Aura
Entropy [0.0]
プルーニング(pruning)は、畳み込みニューラルネットワーク(CNN)モデルの計算複雑性とメモリフットプリントを低減する一般的なテクニックである。
MI計算の既存の手法は、高い計算コストとノイズに対する感度に悩まされ、最適プルーニング性能が低下する。
空間オーラエントロピーを用いたCNNプルーニングのためのMI計算の改良手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:43:49Z) - Efficient Heterogeneous Graph Learning via Random Projection [58.4138636866903]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - A temporally and spatially local spike-based backpropagation algorithm
to enable training in hardware [0.0]
Spiking Neural Networks (SNN)は、分類タスクのためのハードウェア効率の良いアーキテクチャとして登場した。
非スパイキング人工ニューラルネットワーク(ANN)で使用される強力なバックプロパゲーション(BP)技術を採用する試みはいくつかある。
論文 参考訳(メタデータ) (2022-07-20T08:57:53Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。