論文の概要: Unifying Streaming and Non-streaming Zipformer-based ASR
- arxiv url: http://arxiv.org/abs/2506.14434v1
- Date: Tue, 17 Jun 2025 11:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.449466
- Title: Unifying Streaming and Non-streaming Zipformer-based ASR
- Title(参考訳): ストリーミングと非ストリーミングZipformerベースのASRの統合
- Authors: Bidisha Sharma, Karthik Pandia Durai, Shankar Venkatesan, Jeena J Prakash, Shashi Kumar, Malolan Chetlur, Andreas Stolcke,
- Abstract要約: 本稿では,ストリーミングアプリケーションと非ストリーミングアプリケーションの両方に対して,単一エンドツーエンドのASRモデルをトレーニングする統合フレームワークを提案する。
本稿では,zipformer を用いた ASR モデルのトレーニングにおいて,チャンクされた注目マスキングによる動的右コンテキストの利用を提案する。
ストリーミングASRモデルの精度と待ち時間に及ぼす右コンテキストフレーム数の変化の影響を解析する。
- 参考スコア(独自算出の注目度): 14.226219579716629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been increasing interest in unifying streaming and non-streaming automatic speech recognition (ASR) models to reduce development, training, and deployment costs. We present a unified framework that trains a single end-to-end ASR model for both streaming and non-streaming applications, leveraging future context information. We propose to use dynamic right-context through the chunked attention masking in the training of zipformer-based ASR models. We demonstrate that using right-context is more effective in zipformer models compared to other conformer models due to its multi-scale nature. We analyze the effect of varying the number of right-context frames on accuracy and latency of the streaming ASR models. We use Librispeech and large in-house conversational datasets to train different versions of streaming and non-streaming models and evaluate them in a production grade server-client setup across diverse testsets of different domains. The proposed strategy reduces word error by relative 7.9\% with a small degradation in user-perceived latency. By adding more right-context frames, we are able to achieve streaming performance close to that of non-streaming models. Our approach also allows flexible control of the latency-accuracy tradeoff according to customers requirements.
- Abstract(参考訳): 開発、トレーニング、デプロイメントコストを削減するために、ストリーミングと非ストリーミング自動音声認識(ASR)モデルを統一することへの関心が高まっている。
本稿では,ストリーミングアプリケーションと非ストリーミングアプリケーションの両方を対象とした,単一エンドツーエンドのASRモデルをトレーニングする統合フレームワークを提案する。
本稿では,zipformer を用いた ASR モデルのトレーニングにおいて,チャンクされた注目マスキングによる動的右コンテキストの利用を提案する。
右コンテキストの使用は、そのマルチスケールの性質から、他のコンフォメータモデルと比較して、ジップフォーマモデルの方が効果的であることを示す。
ストリーミングASRモデルの精度と待ち時間に及ぼす右コンテキストフレーム数の変化の影響を解析する。
我々は、Librispeechと大規模な社内会話データセットを使用して、ストリーミングモデルと非ストリーミングモデルの異なるバージョンをトレーニングし、異なるドメインのさまざまなテストセットにまたがるプロダクショングレードのサーバ-クライアント設定でそれらを評価します。
提案手法は,単語の単語誤りを相対7.9 %削減し,ユーザ認識レイテンシの低下を小さく抑える。
より右コンテキストのフレームを追加することで、非ストリーミングモデルに近いストリーミングパフォーマンスを実現できます。
当社のアプローチでは,ユーザの要求に応じて,レイテンシ-正確性のトレードオフを柔軟にコントロールすることが可能です。
関連論文リスト
- StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文 参考訳(メタデータ) (2023-06-13T23:42:53Z) - Learning a Dual-Mode Speech Recognition Model via Self-Pruning [18.248552732790852]
本研究の目的は、小型のデバイスオンデバイスストリーミングASRモデルと、大規模なサーバ非ストリーミングモデルとを1つのスーパーネットで共同で学習することである。
本稿では、wav2vec 2.0の自己教師型学習と教師型ASRファインチューニングの両方でスーパーネットトレーニングを行うことで、従来の作業のように大規模な非ストリーミングモデルを大幅に改善できるだけでなく、コンパクトなスパースストリーミングモデルも改善できることを示す。
論文 参考訳(メタデータ) (2022-07-25T05:03:13Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Multi-mode Transformer Transducer with Stochastic Future Context [53.005638503544866]
マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。
マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
論文 参考訳(メタデータ) (2021-06-17T18:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。