論文の概要: Moonshine v2: Ergodic Streaming Encoder ASR for Latency-Critical Speech Applications
- arxiv url: http://arxiv.org/abs/2602.12241v1
- Date: Thu, 12 Feb 2026 18:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.977609
- Title: Moonshine v2: Ergodic Streaming Encoder ASR for Latency-Critical Speech Applications
- Title(参考訳): Moonshine v2:Ergodic Streaming Encoder ASR for Latency-Critical Speech Applications
- Authors: Manjunath Kudlur, Evan King, James Wang, Pete Warden,
- Abstract要約: フルアテンショントランスフォーマーエンコーダは、音声認識(ASR)のための強力な精度ベースラインのままである
本稿では、スライディングウインドウ自己アテンションを用いて、有界低レイテンシ推論を実現するエルゴードストリーミングエンコーダASRモデルv2を紹介する。
提案モデルでは,標準ベンチマーク間での単語誤り率の状態を達成し,モデルのサイズを6倍にし,性能を著しく向上した。
- 参考スコア(独自算出の注目度): 0.8691520242484038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latency-critical speech applications (e.g., live transcription, voice commands, and real-time translation) demand low time-to-first-token (TTFT) and high transcription accuracy, particularly on resource-constrained edge devices. Full-attention Transformer encoders remain a strong accuracy baseline for automatic speech recognition (ASR) because every frame can directly attend to every other frame, which resolves otherwise locally ambiguous acoustics using distant lexical context. However, this global dependency incurs quadratic complexity in sequence length, inducing an inherent "encode-the-whole-utterance" latency profile. For streaming use cases, this causes TTFT to grow linearly with utterance length as the encoder must process the entire prefix before any decoder token can be emitted. To better meet the needs of on-device, streaming ASR use cases we introduce Moonshine v2, an ergodic streaming-encoder ASR model that employs sliding-window self-attention to achieve bounded, low-latency inference while preserving strong local context. Our models achieve state of the art word error rates across standard benchmarks, attaining accuracy on-par with models 6x their size while running significantly faster. These results demonstrate that carefully designed local attention is competitive with the accuracy of full attention at a fraction of the size and latency cost, opening new possibilities for interactive speech interfaces on edge devices.
- Abstract(参考訳): 遅延クリティカル音声アプリケーション(例えば、ライブ文字起こし、音声コマンド、リアルタイム翻訳)は、特にリソース制約されたエッジデバイスにおいて、TTFT(low time-to-first-token)と高い転写精度を要求する。
フルアテンショントランスフォーマーエンコーダは、すべてのフレームが他のフレームに直接参加できるため、遠方の語彙コンテキストを用いて局所的に曖昧な音響を解決できるため、自動音声認識(ASR)の強力な精度ベースラインのままである。
しかし、このグローバルな依存関係はシーケンス長の2次複雑さを引き起こし、固有の"全発話"レイテンシプロファイルを誘導する。
ストリーミングのユースケースでは、任意のデコーダトークンが発行される前に、エンコーダがプレフィックス全体を処理しなければならないため、TTFTは発話長とともに線形に成長する。
デバイス上でのストリーミングASRユースケースのニーズをよりよく満たすため、強いローカルコンテキストを維持しながら、境界付き低レイテンシ推論を実現するためにスライドウインドウ自己アテンションを利用するエルゴードストリーミングエンコーダASRモデルであるMoonshine v2を紹介します。
我々のモデルは、標準ベンチマークで最先端の単語エラー率を実現し、モデルのサイズを6倍に精度良くし、実行速度も大幅に向上した。
これらの結果から,エッジデバイス上での対話型音声インタフェースの新たな可能性として,局所的注意を慎重に設計することは,サイズと遅延コストのごく一部において,完全な注意の精度と競合することが示された。
関連論文リスト
- Whisfusion: Parallel ASR Decoding via a Diffusion Transformer [7.327454599174306]
Whisfusionは、トレーニング済みのWhisperエンコーダをテキスト拡散デコーダで融合するフレームワークである。
パラメータ効率細調整(PEFT)によって訓練された軽量なクロスアテンションアダプタは、2つのモードをブリッジする。
LibriSpeech (960h)のみに微調整されたWhisfusionは、Whisper-tinyよりも低いWERを実現し、短いオーディオに匹敵するレイテンシを提供する。
論文 参考訳(メタデータ) (2025-08-09T17:20:54Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - Streaming parallel transducer beam search with fast-slow cascaded
encoders [23.416682253435837]
RNNトランスデューサのストリーミングおよび非ストリーミングASRは、因果エンコーダと非因果エンコーダをカスケードすることで統一することができる。
高速スローエンコーダから復号するトランスデューサのための並列時間同期ビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T17:29:39Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Multi-rate attention architecture for fast streamable Text-to-speech
spectrum modeling [5.080331097831114]
高品質のテキストと音声(TTS)システムは、スペクトルフレームを生成するスペクトルモデルステージと実際のオーディオを生成するボコーダステージを備えた2段階のアーキテクチャを使用します。
これらのモデルは高品質な音声を生成することができるが、入力長に関してレイテンシーとリアルタイム因子(rtf)の両方にol$を負うことが多い。
本稿では,ストリーミング中にコンパクト表現を符号化することでレイテンシボトルネックを解消するマルチレートアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-01T18:15:30Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。