論文の概要: Spiking Neural Networks with Temporal Attention-Guided Adaptive Fusion for imbalanced Multi-modal Learning
- arxiv url: http://arxiv.org/abs/2505.14535v1
- Date: Tue, 20 May 2025 15:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.549179
- Title: Spiking Neural Networks with Temporal Attention-Guided Adaptive Fusion for imbalanced Multi-modal Learning
- Title(参考訳): 不均衡多モード学習のための時間的注意誘導型適応核融合を用いたスパイキングニューラルネットワーク
- Authors: Jiangrong Shen, Yulin Xie, Qi Xu, Gang Pan, Huajin Tang, Badong Chen,
- Abstract要約: マルチモーダルスパイクニューラルネットワーク(SNN)のための時間的注意誘導型適応融合フレームワークを提案する。
提案フレームワークは,特に時間次元において適応的融合を実装し,マルチモーダル学習におけるモダリティの不均衡を軽減する。
本システムは,学習可能なタイムワープ操作と,ベースラインSNNよりも高速なモーダリティ収束調整により,時間的ずれを解消する。
- 参考スコア(独自算出の注目度): 32.60363000758323
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal spiking neural networks (SNNs) hold significant potential for energy-efficient sensory processing but face critical challenges in modality imbalance and temporal misalignment. Current approaches suffer from uncoordinated convergence speeds across modalities and static fusion mechanisms that ignore time-varying cross-modal interactions. We propose the temporal attention-guided adaptive fusion framework for multimodal SNNs with two synergistic innovations: 1) The Temporal Attention-guided Adaptive Fusion (TAAF) module that dynamically assigns importance scores to fused spiking features at each timestep, enabling hierarchical integration of temporally heterogeneous spike-based features; 2) The temporal adaptive balanced fusion loss that modulates learning rates per modality based on the above attention scores, preventing dominant modalities from monopolizing optimization. The proposed framework implements adaptive fusion, especially in the temporal dimension, and alleviates the modality imbalance during multimodal learning, mimicking cortical multisensory integration principles. Evaluations on CREMA-D, AVE, and EAD datasets demonstrate state-of-the-art performance (77.55\%, 70.65\% and 97.5\%accuracy, respectively) with energy efficiency. The system resolves temporal misalignment through learnable time-warping operations and faster modality convergence coordination than baseline SNNs. This work establishes a new paradigm for temporally coherent multimodal learning in neuromorphic systems, bridging the gap between biological sensory processing and efficient machine intelligence.
- Abstract(参考訳): マルチモーダルスパイクニューラルネットワーク(SNN)は、エネルギー効率の良い感覚処理には大きな可能性を秘めているが、モダリティの不均衡と時間的ミスアライメントにおいて重要な課題に直面している。
現在のアプローチでは、時間-時間-時間間相互作用を無視するモダリティと静的融合機構の非協調収束速度に悩まされている。
2つの相乗的革新を伴うマルチモーダルSNNのための時間的注意誘導型適応核融合フレームワークを提案する。
1) 時間的注意誘導型適応核融合(TAAF)モジュールは,各タイミングで重要スコアを融合したスパイク特徴に動的に割り当て,時間的・異種スパイクに基づく特徴の階層的統合を可能にする。
2) 時間適応的平衡核融合損失は, 上記の注意点に基づいてモーダル毎の学習率を変調し, 支配的モダリティの独占的最適化を防止する。
提案フレームワークは,特に時間次元において適応的融合を実装し,皮質多感覚統合原理を模倣した多モーダル学習におけるモダリティの不均衡を緩和する。
CREMA-D, AVE, EADデータセットの評価では, エネルギー効率の高い最先端性能(77.55\%, 70.65\%, 97.5\%)が示されている。
本システムは,学習可能なタイムワープ操作と,ベースラインSNNよりも高速なモーダリティ収束調整により時間的ずれを解消する。
この研究は、神経型システムにおける時間的コヒーレントなマルチモーダル学習のための新しいパラダイムを確立し、生物学的感覚処理と効率的なマシンインテリジェンスの間のギャップを埋める。
関連論文リスト
- Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition [10.741278852581646]
Emotional Mimicry Intensity (EMI)の推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用を促進する上で重要な役割を担っている。
本稿では,既存手法の限界に対処する2段階のクロスモーダルアライメントフレームワークを提案する。
Hume-Vidmimic2データセットの実験では、6つの感情次元の平均ピアソン係数相関が0.51であるのに対し、優れた性能を示した。
論文 参考訳(メタデータ) (2025-03-13T17:46:16Z) - MHSA: A Multi-scale Hypergraph Network for Mild Cognitive Impairment Detection via Synchronous and Attentive Fusion [4.526574526136158]
同期核融合によるMCI検出のためのマルチスケールハイパーグラフネットワークを提案する。
本手法では、関心領域のスペクトル領域における位相同期関係を計算するために、位相同期値(PLV)を用いる。
PLV係数は動的に戦略を調整し,時間スペクトル融合行列に基づいて動的ハイパーグラフをモデル化する。
論文 参考訳(メタデータ) (2024-12-11T02:59:57Z) - Spiking Neural Networks with Consistent Mapping Relations Allow High-Accuracy Inference [9.667807887916132]
スパイクベースのニューロモルフィックハードウェアは、低エネルギー消費と効率的な推論において大きな可能性を証明している。
ディープスパイクニューラルネットワークの直接トレーニングは困難であり、変換ベースの手法では未解決の変換エラーのため、かなりの遅延が必要になる。
論文 参考訳(メタデータ) (2024-06-08T06:40:00Z) - TC-LIF: A Two-Compartment Spiking Neuron Model for Long-Term Sequential
Modelling [54.97005925277638]
潜在的な可能性や危険に関連する感覚的手がかりの同定は、長期間の遅延によって有用な手がかりを分離する無関係な事象によってしばしば複雑になる。
SNN(State-of-the-art spiking Neural Network)は、遠方のキュー間の長期的な時間的依存関係を確立する上で、依然として困難な課題である。
そこで本研究では,T-LIFとよばれる,生物学的にインスパイアされたTwo-compartment Leaky Integrate- and-Fireのスパイキングニューロンモデルを提案する。
論文 参考訳(メタデータ) (2023-08-25T08:54:41Z) - Long Short-term Memory with Two-Compartment Spiking Neuron [64.02161577259426]
LSTM-LIFとよばれる,生物学的にインスパイアされたLong Short-Term Memory Leaky Integrate-and-Fireのスパイキングニューロンモデルを提案する。
実験結果は,時間的分類タスクの多種多様な範囲において,優れた時間的分類能力,迅速な訓練収束,ネットワークの一般化性,LSTM-LIFモデルの高エネルギー化を実証した。
したがって、この研究は、新しいニューロモルフィック・コンピューティング・マシンにおいて、困難な時間的処理タスクを解決するための、無数の機会を開放する。
論文 参考訳(メタデータ) (2023-07-14T08:51:03Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Influence Estimation and Maximization via Neural Mean-Field Dynamics [60.91291234832546]
本稿では,ニューラル平均場(NMF)ダイナミクスを用いた新しい学習フレームワークを提案する。
我々のフレームワークは拡散ネットワークの構造とノード感染確率の進化を同時に学習することができる。
論文 参考訳(メタデータ) (2021-06-03T00:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。