論文の概要: SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2603.10005v2
- Date: Thu, 12 Mar 2026 12:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.554801
- Title: SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition
- Title(参考訳): SENS-ASR: 音声認識のストリーム化のためのニューラルトランスデューサにおける意味的埋め込み注入
- Authors: Youness Dkhissi, Valentin Vielzeuf, Elys Allesiardo, Anthony Larcher,
- Abstract要約: 本稿では,SENS-ASRを提案する。SENS-ASRは意味情報を用いて音響情報を補強することにより,ストリームASRの転写品質を向上させる手法である。
標準データセットの実験では、SENS-ASRは小さなチャンクストリーミングシナリオでワードエラー率を大幅に改善している。
- 参考スコア(独自算出の注目度): 3.0406449751520754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many Automatic Speech Recognition (ASR) applications require streaming processing of the audio data. In streaming mode, ASR systems need to start transcribing the input stream before it is complete, i.e., the systems have to process a stream of inputs with a limited (or no) future context. Compared to offline mode, this reduction of the future context degrades the performance of Streaming-ASR systems, especially while working with low-latency constraint. In this work, we present SENS-ASR, an approach to enhance the transcription quality of Streaming-ASR by reinforcing the acoustic information with semantic information. This semantic information is extracted from the available past frame-embeddings by a context module. This module is trained using knowledge distillation from a sentence embedding Language Model fine-tuned on the training dataset transcriptions. Experiments on standard datasets show that SENS-ASR significantly improves the Word Error Rate on small-chunk streaming scenarios.
- Abstract(参考訳): 多くの自動音声認識(ASR)アプリケーションは音声データのストリーミング処理を必要とする。
ストリーミングモードでは、ASRシステムは入力ストリームが完了する前に入力ストリームの書き起こしを開始する必要がある。
オフラインモードと比較して、将来的なコンテキストの削減は、特に低遅延制約で動作する場合、Streaming-ASRシステムの性能を低下させる。
本研究では,SENS-ASRについて述べる。SENS-ASRは意味情報を用いて音響情報を補強することにより,ストリームASRの転写品質を向上させる手法である。
この意味情報は、コンテキストモジュールによって利用可能な過去のフレーム埋め込みから抽出される。
このモジュールは、トレーニングデータセットの転写に基づいて微調整された文埋め込み言語モデルからの知識蒸留を用いて訓練される。
標準データセットの実験では、SENS-ASRは小さなチャンクストリーミングシナリオでワードエラー率を大幅に改善している。
関連論文リスト
- Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文 参考訳(メタデータ) (2023-06-13T23:42:53Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。