論文の概要: SpikCommander: A High-performance Spiking Transformer with Multi-view Learning for Efficient Speech Command Recognition
- arxiv url: http://arxiv.org/abs/2511.07883v1
- Date: Wed, 12 Nov 2025 01:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.521078
- Title: SpikCommander: A High-performance Spiking Transformer with Multi-view Learning for Efficient Speech Command Recognition
- Title(参考訳): SpikCommander:効率的な音声コマンド認識のための多視点学習を用いた高性能スパイキング変換器
- Authors: Jiaqi Wang, Liutao Yu, Xiongri Shen, Sihang Guo, Chenlin Zhou, Leilei Zhao, Yi Zhong, Zhengyu Ma, Zhiguo Zhang,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、エネルギー効率の良い音声コマンド認識(SCR)への有望な道を提供する
既存のSNNベースのSCR手法は、しばしば音声から豊富な時間的依存や文脈情報を捉えるのに苦労する。
まず,マルチビュー・スパイキング・テンポラル・アウェア・セルフアテンション(MSTASA)モジュールを導入し,効果的にスパイキング・テンポラル・アウェア・アテンションとマルチビュー・ラーニング・フレームワークを組み合わせた。
- 参考スコア(独自算出の注目度): 15.046045835808314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking neural networks (SNNs) offer a promising path toward energy-efficient speech command recognition (SCR) by leveraging their event-driven processing paradigm. However, existing SNN-based SCR methods often struggle to capture rich temporal dependencies and contextual information from speech due to limited temporal modeling and binary spike-based representations. To address these challenges, we first introduce the multi-view spiking temporal-aware self-attention (MSTASA) module, which combines effective spiking temporal-aware attention with a multi-view learning framework to model complementary temporal dependencies in speech commands. Building on MSTASA, we further propose SpikCommander, a fully spike-driven transformer architecture that integrates MSTASA with a spiking contextual refinement channel MLP (SCR-MLP) to jointly enhance temporal context modeling and channel-wise feature integration. We evaluate our method on three benchmark datasets: the Spiking Heidelberg Dataset (SHD), the Spiking Speech Commands (SSC), and the Google Speech Commands V2 (GSC). Extensive experiments demonstrate that SpikCommander consistently outperforms state-of-the-art (SOTA) SNN approaches with fewer parameters under comparable time steps, highlighting its effectiveness and efficiency for robust speech command recognition.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)は、イベント駆動処理パラダイムを活用することで、エネルギー効率の高い音声コマンド認識(SCR)への有望な道を提供する。
しかし、既存のSNNベースのSCR手法は、時間的モデリングやバイナリスパイクに基づく表現が限られているため、音声からの豊富な時間的依存や文脈情報を捉えるのに苦労することが多い。
これらの課題に対処するために、まず、音声コマンドの補完的時間依存性をモデル化する多視点学習フレームワークと、効果的な時空間認識の注意を組み合わせたマルチビュー・スパイキング・テンポラル・アウェア・セルフアテンション(MSTASA)モジュールを導入する。
さらに,MSTASAをベースとした完全スパイク駆動型トランスフォーマーアーキテクチャであるSpikCommanderを提案する。これは,MSTASAをスパイクコンテキスト改善チャネルMLP(SCR-MLP)と統合し,時間的コンテキストモデリングとチャネルワイズ機能統合を協調的に強化する。
提案手法は、Spyking Heidelberg Dataset (SHD)、Spyking Speech Commands (SSC)、Google Speech Commands V2 (GSC)の3つのベンチマークデータセットで評価する。
広範な実験により、SpikCommanderは、同等の時間ステップで、より少ないパラメータで、最先端(SOTA)SNNアプローチを一貫して上回り、堅牢な音声コマンド認識の有効性と効率を強調している。
関連論文リスト
- KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI [14.667102744113295]
リアルタイム音声合成(S2S)モデルは低レイテンシな会話応答を生成するのに優れているが、深い知識と意味理解が欠けていることが多い。
自動音声認識、テキストベース大規模言語モデル(LLM)、テキスト音声合成を組み合わせたCケースドシステムは、高いレイテンシを犠牲にして優れた知識表現を提供する。
本稿では,この2つのパラダイムのギャップを埋める新しいハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-26T00:46:34Z) - Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - Efficient Speech Command Recognition Leveraging Spiking Neural Network and Curriculum Learning-based Knowledge Distillation [30.032453125056783]
スパイクニューラルネットワーク(SNN)は、組み込みの時系列をタイムステップとして自然に活用することで、時間情報を処理するのに優れている。
近年,SNNの音声認識における有効性を示す研究が進められており,長い時間列に対して大きなステップを踏むことで高い性能を実現している。
効率的な表現学習のためのグローバルなハイブリッド構造を特徴とする,高性能な完全スパイク駆動型フレームワークSpikeSCRを提案する。
論文 参考訳(メタデータ) (2024-12-17T12:38:45Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。
実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-11-22T23:38:10Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。