論文の概要: Enhancing Audio-Visual Spiking Neural Networks through Semantic-Alignment and Cross-Modal Residual Learning
- arxiv url: http://arxiv.org/abs/2502.12488v1
- Date: Tue, 18 Feb 2025 03:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:12.571061
- Title: Enhancing Audio-Visual Spiking Neural Networks through Semantic-Alignment and Cross-Modal Residual Learning
- Title(参考訳): セマンティックアライメントとクロスモーダル残差学習による音声-視覚スパイクニューラルネットワークの強化
- Authors: Xiang He, Dongcheng Zhao, Yiting Dong, Guobin Shen, Xin Yang, Yi Zeng,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされた計算モデルである。
既存のSNNモデルは、一モーダル処理に重点を置いており、効率的なクロスモーダル情報融合を欠いている。
本稿では,効果的な音声・視覚統合のための意味的アライメント・クロスモーダル残差学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.862065825733243
- License:
- Abstract: Humans interpret and perceive the world by integrating sensory information from multiple modalities, such as vision and hearing. Spiking Neural Networks (SNNs), as brain-inspired computational models, exhibit unique advantages in emulating the brain's information processing mechanisms. However, existing SNN models primarily focus on unimodal processing and lack efficient cross-modal information fusion, thereby limiting their effectiveness in real-world multimodal scenarios. To address this challenge, we propose a semantic-alignment cross-modal residual learning (S-CMRL) framework, a Transformer-based multimodal SNN architecture designed for effective audio-visual integration. S-CMRL leverages a spatiotemporal spiking attention mechanism to extract complementary features across modalities, and incorporates a cross-modal residual learning strategy to enhance feature integration. Additionally, a semantic alignment optimization mechanism is introduced to align cross-modal features within a shared semantic space, improving their consistency and complementarity. Extensive experiments on three benchmark datasets CREMA-D, UrbanSound8K-AV, and MNISTDVS-NTIDIGITS demonstrate that S-CMRL significantly outperforms existing multimodal SNN methods, achieving the state-of-the-art performance. The code is publicly available at https://github.com/Brain-Cog-Lab/S-CMRL.
- Abstract(参考訳): 人間は、視覚や聴覚などの複数のモードから感覚情報を統合することで、世界を解釈し、知覚する。
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされた計算モデルであり、脳の情報処理機構をエミュレートする際、ユニークな利点を示す。
しかし、既存のSNNモデルは、主に非モーダル処理に焦点を合わせ、効率的なクロスモーダル情報融合を欠いているため、実世界のマルチモーダルシナリオにおける有効性を制限している。
この課題に対処するために,トランスフォーマーをベースとしたマルチモーダルSNNアーキテクチャであるセマンティックアライメント・クロスモーダル残差学習(S-CMRL)フレームワークを提案する。
S-CMRLは時空間スパイキングアテンション機構を利用して、モーダル間の相補的特徴を抽出し、モーダル間の残差学習戦略を取り入れ、特徴統合を強化する。
さらに、セマンティックアライメント最適化機構を導入し、共有セマンティック空間内のクロスモーダルな特徴を整列させ、一貫性と相補性を改善する。
CREMA-D、UrbanSound8K-AV、MNISTDVS-NTIDIGITSの3つのベンチマークデータセットに対する大規模な実験により、S-CMRLは既存のマルチモーダルSNN法よりも大幅に優れ、最先端のパフォーマンスを達成することが示された。
コードはhttps://github.com/Brain-Cog-Lab/S-CMRLで公開されている。
関連論文リスト
- Towards 3D Semantic Scene Completion for Autonomous Driving: A Meta-Learning Framework Empowered by Deformable Large-Kernel Attention and Mamba Model [1.6835437621159244]
セマンティックシーン補完(SSC)のためのメタラーニングに基づく新しいフレームワークであるMetaSSCを紹介する。
我々のアプローチは、不完全領域のセマンティックスと幾何学を探求することを目的とした、ボクセルに基づくセマンティックセマンティックセマンティクス(SS)事前訓練タスクから始まる。
シミュレーションされた協調認識データセットを用いて、集約されたセンサデータを用いて1台の車両の知覚訓練を監督する。
このメタ知識は、二重フェーズのトレーニング戦略を通じてターゲットドメインに適応し、効率的なデプロイメントを可能にする。
論文 参考訳(メタデータ) (2024-11-06T05:11:25Z) - A Multimodal Feature Distillation with CNN-Transformer Network for Brain Tumor Segmentation with Incomplete Modalities [15.841483814265592]
本稿では,CNN-Transformer Hybrid Network (MCTSeg) を用いたマルチモーダル特徴蒸留法を提案する。
CNN-Transformer ネットワークと Transformer の畳み込みブロックを併用して提案するモジュールの重要性について検討した。
論文 参考訳(メタデータ) (2024-04-22T09:33:44Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。