論文の概要: Samba-asr state-of-the-art speech recognition leveraging structured state-space models
- arxiv url: http://arxiv.org/abs/2501.02832v1
- Date: Mon, 06 Jan 2025 08:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:51.022108
- Title: Samba-asr state-of-the-art speech recognition leveraging structured state-space models
- Title(参考訳): 構造化状態空間モデルを利用したSamba-asr状態認識
- Authors: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi,
- Abstract要約: 我々は,最初の最先端自動音声認識モデルであるSamba ASRを提案する。
Samba ASRはステートスペースモデル(SSM)の基礎の上に構築されている。
我々は,Samba ASRが,様々な標準ベンチマークにおいて,既存のオープンソーストランスフォーマーベースのASRモデルを上回ることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition (ASR) model leveraging the novel Mamba architecture as both encoder and decoder, built on the foundation of state-space models (SSMs). Unlike transformer-based ASR models, which rely on self-attention mechanisms to capture dependencies, Samba ASR effectively models both local and global temporal dependencies using efficient state-space dynamics, achieving remarkable performance gains. By addressing the limitations of transformers, such as quadratic scaling with input length and difficulty in handling long-range dependencies, Samba ASR achieves superior accuracy and efficiency. Experimental results demonstrate that Samba ASR surpasses existing open-source transformer-based ASR models across various standard benchmarks, establishing it as the new state of the art in ASR. Extensive evaluations on benchmark datasets show significant improvements in Word Error Rate (WER), with competitive performance even in low-resource scenarios. Furthermore, the computational efficiency and parameter optimization of the Mamba architecture make Samba ASR a scalable and robust solution for diverse ASR tasks. Our contributions include: A new Samba ASR architecture demonstrating the superiority of SSMs over transformer-based models for speech sequence processing. A comprehensive evaluation on public benchmarks showcasing state-of-the-art performance. An analysis of computational efficiency, robustness to noise, and sequence generalization. This work highlights the viability of Mamba SSMs as a transformer-free alternative for efficient and accurate ASR. By leveraging state-space modeling advancements, Samba ASR sets a new benchmark for ASR performance and future research.
- Abstract(参考訳): 我々は,Samba ASRを提案する。これは,新しいMambaアーキテクチャを,状態空間モデル(SSM)の基礎の上に構築したエンコーダとデコーダの両方として活用する,最初の最先端自動音声認識(ASR)モデルである。
依存関係をキャプチャする自己アテンション機構に依存するトランスフォーマーベースのASRモデルとは異なり、Samba ASRは、効率的な状態空間ダイナミクスを使用して、局所的およびグローバルな時間的依存関係の両方を効果的にモデル化し、優れたパフォーマンス向上を実現している。
入力長の二次スケーリングや長距離依存処理の難しさといったトランスフォーマーの限界に対処することにより、Samba ASRはより優れた精度と効率を実現する。
実験の結果、Samba ASRは様々な標準ベンチマークで既存のオープンソーストランスフォーマーベースのASRモデルを上回ることが示され、ASRの新たな最先端技術として確立された。
ベンチマークデータセットの大規模な評価では、低リソースシナリオにおいても、Word Error Rate(WER)が大幅に改善され、競争性能が向上した。
さらに、Mambaアーキテクチャの計算効率とパラメータ最適化により、Samba ASRは多様なASRタスクに対してスケーラブルで堅牢なソリューションとなる。
音声シーケンス処理のためのトランスフォーマモデルよりもSSMの方が優れていることを示す新しいSamba ASRアーキテクチャ。
最先端性能を示す公開ベンチマークの総合評価
計算効率、雑音に対するロバスト性、およびシーケンス一般化の解析
この研究は、効率的かつ正確なASRのためのトランスフォーマーフリー代替手段として、Mamba SSMの生存性を強調している。
状態空間モデリングの進歩を活用することで、Samba ASRはASRのパフォーマンスと将来の研究のための新しいベンチマークを設定できる。
関連論文リスト
- On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。
ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文 参考訳(メタデータ) (2025-01-24T15:34:50Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - State Space Models are Strong Text Rerankers [33.41687512973575]
Mambaのようなステートスペースモデル(SSM)は有望な利点を提供する。
その可能性にもかかわらず、SSMのテキストの再ランクにおける有効性は未定のままである。
Mambaアーキテクチャは、同様のサイズのトランスフォーマーベースのモデルに匹敵する、競合するテキストランキングのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-18T21:42:15Z) - Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。
そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T06:32:31Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - RSDehamba: Lightweight Vision Mamba for Remote Sensing Satellite Image Dehazing [19.89130165954241]
リモートセンシング画像デハージング(RSID)は、高品質な画像復元のための不均一かつ物理的に不規則なヘイズ要素を取り除くことを目的としている。
本稿では,RSID分野におけるRSDhambaと呼ばれるマンバモデル上での最初の軽量ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T12:12:07Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。