論文の概要: Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
- arxiv url: http://arxiv.org/abs/2501.02832v2
- Date: Tue, 07 Jan 2025 10:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 12:28:56.558811
- Title: Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
- Title(参考訳): Samba-ASR:構造化状態空間モデルを利用した状態-Of-the-Art音声認識
- Authors: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi,
- Abstract要約: 我々は,新しいマンバアーキテクチャをエンコーダとデコーダの両方として活用した,アート音声認識(ASR)モデルの第一の状態であるSamba ASRを提案する。
Samba ASRは、効率的な状態空間力学を用いて、局所的および大域的時間的依存関係をモデル化する。
Samba ASRは、様々な標準ベンチマークで既存のオープンソーストランスフォーマーベースのASRモデルを上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose Samba ASR,the first state of the art Automatic Speech Recognition(ASR)model leveraging the novel Mamba architecture as both encoder and decoder,built on the foundation of state space models(SSMs).Unlike transformerbased ASR models,which rely on self-attention mechanisms to capture dependencies,Samba ASR effectively models both local and global temporal dependencies using efficient statespace dynamics,achieving remarkable performance gains.By addressing the limitations of transformers,such as quadratic scaling with input length and difficulty in handling longrange dependencies,Samba ASR achieves superior accuracy and efficiency.Experimental results demonstrate that Samba ASR surpasses existing opensource transformerbased ASR models across various standard benchmarks,establishing it as the new state of theart in ASR.Extensive evaluations on the benchmark dataset show significant improvements in Word Error Rate(WER),with competitive performance even in lowresource scenarios.Furthermore,the inherent computational efficiency and parameter optimization of the Mamba architecture make Samba ASR a scalable and robust solution for diverse ASR tasks.Our contributions include the development of a new Samba ASR architecture for automatic speech recognition(ASR),demonstrating the superiority of structured statespace models(SSMs)over transformer based models for speech sequence processing.We provide a comprehensive evaluation on public benchmarks,showcasing stateoftheart(SOTA)performance,and present an indepth analysis of computational efficiency,robustness to noise,and sequence generalization.This work highlights the viability of Mamba SSMs as a transformerfree alternative for efficient and accurate ASR.By leveraging the advancements of statespace modeling,Samba ASR redefines ASR performance standards and sets a new benchmark for future research in this field.
- Abstract(参考訳): そこで我々は,Samba ASRを提案する。Samba ASRは,新しいMambaアーキテクチャを,状態空間モデル(SSM)の基礎の上に構築したエンコーダとデコーダの両方として活用した,最初の最先端自動音声認識(ASR)モデルである。
トランスフォーマーベースのASRモデルとは違い、Samba ASRは、局所的およびグローバルな時間的依存関係の両方を効率的な状態空間のダイナミクスを用いて効果的にモデル化し、優れたパフォーマンス向上を実現している。Samba ASRは、入力長の2次スケーリングや長距離依存性の処理の難しさといったトランスフォーマーの制限に対処するため、より優れた精度と効率性を実現している。実験結果により、Samba ASRは、様々な標準ベンチマークで既存のオープンソーストランスフォーマーベースのASRモデルを超え、ASRの新たな最先端として確立されている。このベンチマークに対する大規模な評価は、Word Error Rate(WER)の大幅な性能向上を示し、低リソースシナリオにおいても競争性能が向上している。また、Mamba ASRアーキテクチャの固有の計算効率と最適化の最適化は、スケーラブルでスケーラブルなタスクを含む。
関連論文リスト
- Mamba for Streaming ASR Combined with Unimodal Aggregation [7.6112706449833505]
最近提案された状態空間モデルであるMambaは、様々なタスクでTransformerにマッチまたは超える能力を示した。
本稿では,制御可能な将来情報を活用するためのルックアヘッド機構を提案する。
2つの中国語データセットを用いて実験を行い、提案モデルが競争力のあるASR性能を達成することを示した。
論文 参考訳(メタデータ) (2024-09-30T12:11:49Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - RSDehamba: Lightweight Vision Mamba for Remote Sensing Satellite Image Dehazing [19.89130165954241]
リモートセンシング画像デハージング(RSID)は、高品質な画像復元のための不均一かつ物理的に不規則なヘイズ要素を取り除くことを目的としている。
本稿では,RSID分野におけるRSDhambaと呼ばれるマンバモデル上での最初の軽量ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T12:12:07Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Non-autoregressive Transformer-based End-to-end ASR using BERT [13.07939371864781]
本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
論文 参考訳(メタデータ) (2021-04-10T16:22:17Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。