論文の概要: Brain-Inspired Multimodal Spiking Neural Network for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2603.26787v1
- Date: Wed, 25 Mar 2026 08:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.607808
- Title: Brain-Inspired Multimodal Spiking Neural Network for Image-Text Retrieval
- Title(参考訳): 画像検索のための脳誘発マルチモーダルスパイクニューラルネットワーク
- Authors: Xintao Zong, Xian Zhong, Wenxuan Liu, Jianhao Ding, Zhaofei Yu, Tiejun Huang,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、最近、視覚的タスクとテキストタスクに強い可能性を示している。
画像テキスト検索(ITR)のようなマルチモーダルアプリケーションのための直接訓練され、低エネルギーで高性能なSNNを構築することは、依然として非常に困難である。
我々は脳にインスパイアされたクロスモーダルスパイク・フュージョン・ネットワーク(CMSF)を提案し、初めてITRに適用した。
- 参考スコア(独自算出の注目度): 79.04396446873932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking neural networks (SNNs) have recently shown strong potential in unimodal visual and textual tasks, yet building a directly trained, low-energy, and high-performance SNN for multimodal applications such as image-text retrieval (ITR) remains highly challenging. Existing artificial neural network (ANN)-based methods often pursue richer unimodal semantics using deeper and more complex architectures, while overlooking cross-modal interaction, retrieval latency, and energy efficiency. To address these limitations, we present a brain-inspired Cross-Modal Spike Fusion network (CMSF) and apply it to ITR for the first time. The proposed spike fusion mechanism integrates unimodal features at the spike level, generating enhanced multimodal representations that act as soft supervisory signals to refine unimodal spike embeddings, effectively mitigating semantic loss within CMSF. Despite requiring only two time steps, CMSF achieves top-tier retrieval accuracy, surpassing state-of-the-art ANN counterparts while maintaining exceptionally low energy consumption and high retrieval speed. This work marks a significant step toward multimodal SNNs, offering a brain-inspired framework that unifies temporal dynamics with cross-modal alignment and provides new insights for future spiking-based multimodal research. The code is available at https://github.com/zxt6174/CMSF.
- Abstract(参考訳): 画像テキスト検索(ITR)のようなマルチモーダルアプリケーションのための直接訓練された、低エネルギーで高性能なSNNを構築することは、依然として非常に難しい。
既存のANN(Artificial Neural Network)ベースの手法は、より深く複雑なアーキテクチャを使用して、よりリッチなユニモーダルセマンティクスを追求することが多い。
これらの制限に対処するため、脳にインスパイアされたクロスモーダルスパイク・フュージョン・ネットワーク(CMSF)を提示し、初めてITRに適用する。
提案したスパイク融合機構は、スパイクレベルでのユニモーダル特徴を統合し、ソフトなスーパーバイザー信号として機能するマルチモーダル表現を生成し、一モーダルスパイク埋め込みを洗練させ、CMSF内のセマンティックロスを効果的に軽減する。
CMSFは2つの時間ステップしか必要とせず、最先端の検索精度を達成し、最先端のANNよりもはるかに低いエネルギー消費と高い検索速度を維持している。
この研究はマルチモーダルSNNへの重要な一歩であり、時間的ダイナミクスをクロスモーダルアライメントで統一し、将来のスパイキングベースのマルチモーダル研究に新たな洞察を与える脳にインスパイアされたフレームワークを提供する。
コードはhttps://github.com/zxt6174/CMSFで公開されている。
関連論文リスト
- A Latency Coding Framework for Deep Spiking Neural Networks with Ultra-Low Latency [51.75891259753546]
スパイキングニューラルネットワーク(SNN)は、エネルギー効率のよいニューラル処理に重要な可能性を持つ生物学的にインスパイアされたコンピューティングパラダイムを提供する。
Time-To-First-Spike (TTFS)コーディングは、ニューロンの最初のスパイクの正確なタイミングを通じて情報を符号化する。
TTFSモデルには効率的なトレーニング方法がなく、高い推論遅延と限られたパフォーマンスに悩まされている。
本稿では,バックプロパゲーション・スロー・タイム(BPTT)アルゴリズムを用いて,深層TTFS符号化SNNの効率的なトレーニングを可能にする包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T13:52:03Z) - S3T-Former: A Purely Spike-Driven State-Space Topology Transformer for Skeleton Action Recognition [11.456020141268832]
Spiking State-Space Topology Transformer (S3T-Former)は、エネルギー効率の良い骨格動作認識のために設計された、最初の純粋にスパイク駆動のTransformerアーキテクチャである。
真のトポロジ的・時間的空間性を実現するために、オンデマンドの条件付きスパイク伝搬のための横方向スパイキングトポロジ・ルーティング(LSTR)を導入する。
複数の大規模データセットの実験により、S3T-Formerはエネルギー消費を理論的に低減しながら高い競争精度を達成することを示した。
論文 参考訳(メタデータ) (2026-03-18T02:09:50Z) - Efficient Eye-based Emotion Recognition via Neural Architecture Search of Time-to-First-Spike-Coded Spiking Neural Networks [52.617096567601344]
Time-to-first-Spike (TTFS)で符号化されたスパイクニューラルネットワーク(SNN)は、アイベースの感情認識に有望なソリューションを提供する。
TTFS-ERは、目に基づく感情認識のためにTTFS SNN用に設計された最初のニューラルネットワーク検索フレームワークである。
ニューロモルフィックハードウェア上に展開すると、TNAS-ERは48ミリ秒の低レイテンシと0.05Jのエネルギー消費を達成する。
論文 参考訳(メタデータ) (2025-12-02T06:35:49Z) - SNN-Driven Multimodal Human Action Recognition via Event Camera and Skeleton Data Fusion [0.7910116766220068]
マルチモーダル・ヒューマン・アクション認識のための新しいスパイキングニューラルネットワーク(SNN)駆動のフレームワークを提案する。
本フレームワークは,(1)モダリティごとに異なるバックボーンネットワークを利用する新しいマルチモーダルSNNアーキテクチャ,(2)SNNに基づく離散化情報ボトルネック機構のパイオニアである。
論文 参考訳(メタデータ) (2025-02-19T02:50:51Z) - Spiking Neural Network Feature Discrimination Boosts Modality Fusion [4.888434990566422]
スパイクニューラルネットワーク(SNN)を用いたマルチモーダル学習のための特徴識別手法を提案する。
視覚モダリティ処理にはディープスパイキング残差学習と、聴覚モダリティ処理にはシンプルで効率的なスパイキングネットワークを用いる。
本研究は, 分類課題の分野において, 同様の研究に対するアプローチを提示し, 評価する。
論文 参考訳(メタデータ) (2025-02-05T14:33:48Z) - SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network [39.54624592783459]
従来のニューラルネットワーク(ANN)の代替として、スパイキングニューラルネットワーク(SNN)が登場した。
本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:57:17Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。