論文の概要: Mamba for Streaming ASR Combined with Unimodal Aggregation
- arxiv url: http://arxiv.org/abs/2410.00070v1
- Date: Mon, 30 Sep 2024 12:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 15:09:43.546107
- Title: Mamba for Streaming ASR Combined with Unimodal Aggregation
- Title(参考訳): 一様集合を伴うASRストリーミング用マンバ
- Authors: Ying Fang, Xiaofei Li,
- Abstract要約: 最近提案された状態空間モデルであるMambaは、様々なタスクでTransformerにマッチまたは超える能力を示した。
本稿では,制御可能な将来情報を活用するためのルックアヘッド機構を提案する。
2つの中国語データセットを用いて実験を行い、提案モデルが競争力のあるASR性能を達成することを示した。
- 参考スコア(独自算出の注目度): 7.6112706449833505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper works on streaming automatic speech recognition (ASR). Mamba, a recently proposed state space model, has demonstrated the ability to match or surpass Transformers in various tasks while benefiting from a linear complexity advantage. We explore the efficiency of Mamba encoder for streaming ASR and propose an associated lookahead mechanism for leveraging controllable future information. Additionally, a streaming-style unimodal aggregation (UMA) method is implemented, which automatically detects token activity and streamingly triggers token output, and meanwhile aggregates feature frames for better learning token representation. Based on UMA, an early termination (ET) method is proposed to further reduce recognition latency. Experiments conducted on two Mandarin Chinese datasets demonstrate that the proposed model achieves competitive ASR performance in terms of both recognition accuracy and latency.
- Abstract(参考訳): 本稿では,ストリーミング自動音声認識(ASR)について述べる。
最近提案された状態空間モデルであるMambaは、線形複雑性の利点を生かしながら、様々なタスクでTransformerにマッチまたは超越する能力を実証した。
本研究では,ASRストリーミングにおけるMambaエンコーダの効率性について検討し,制御可能な将来情報を活用するためのルックアヘッド機構を提案する。
さらに、トークンのアクティビティを自動的に検出し、トークン出力をストリーミングトリガーするストリーミングスタイルのユニモーダルアグリゲーション(UMA)手法が実装され、一方、特徴フレームを集約してトークン表現をより良く学習する。
UMAに基づいて、認識遅延をさらに低減するために早期終了(ET)法を提案する。
2つの中国語データセットで行った実験では、認識精度とレイテンシの両方の観点から、提案モデルが競合するASR性能を達成することを示した。
関連論文リスト
- Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MALT: Multi-scale Action Learning Transformer for Online Action Detection [6.819772961626024]
オンラインアクション検出(OAD)は、将来的なフレームにアクセスすることなく、リアルタイムでストリーミングビデオから進行中のアクションを特定することを目的としている。
本稿では,新しいリカレントデコーダを備えたマルチスケール動作学習トランス (MALT) を提案する。
また、無関係なフレームをより効率的にフィルタリングするスパースアテンションを用いた明示的なフレームスコアリング機構も導入する。
論文 参考訳(メタデータ) (2024-05-31T15:03:35Z) - Streaming Sequence Transduction through Dynamic Compression [55.0083843520833]
本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。
STARは入力ストリームを動的にセグメント化して圧縮アンカー表現を生成し、自動音声認識(ASR)においてほぼロスレス圧縮(12x)を達成する
STARは、音声とテキストの同時タスクにおいて、セグメンテーションとレイテンシ品質のトレードオフが優れており、レイテンシ、メモリフットプリント、品質が最適化されている。
論文 参考訳(メタデータ) (2024-02-02T06:31:50Z) - An Investigation of Enhancing CTC Model for Triggered Attention-based
Streaming ASR [19.668440671541546]
Mask-CTCとトリガアテンション機構を組み合わせることで、ストリーミングエンドツーエンド自動音声認識(ASR)システムを構築する。
提案手法は従来のトリガアテンションベースのストリーミングASRシステムよりも低レイテンシで高い精度を実現する。
論文 参考訳(メタデータ) (2021-10-20T06:44:58Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。