論文の概要: DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer
- arxiv url: http://arxiv.org/abs/2306.08175v1
- Date: Tue, 13 Jun 2023 23:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 20:55:13.531842
- Title: DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer
- Title(参考訳): DCTX-Conformer:低レイテンシ統合ストリーミングと非ストリーミングコンフォーマーのための動的コンテキストの搬送
- Authors: Goeric Huybrechts, Srikanth Ronanki, Xilai Li, Hadis Nosrati, Sravan
Bodapati, Katrin Kirchhoff
- Abstract要約: 本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
- 参考スコア(独自算出の注目度): 18.14895128026616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conformer-based end-to-end models have become ubiquitous these days and are
commonly used in both streaming and non-streaming automatic speech recognition
(ASR). Techniques like dual-mode and dynamic chunk training helped unify
streaming and non-streaming systems. However, there remains a performance gap
between streaming with a full and limited past context. To address this issue,
we propose the integration of a novel dynamic contextual carry-over mechanism
in a state-of-the-art (SOTA) unified ASR system. Our proposed dynamic context
Conformer (DCTX-Conformer) utilizes a non-overlapping contextual carry-over
mechanism that takes into account both the left context of a chunk and one or
more preceding context embeddings. We outperform the SOTA by a relative 25.0%
word error rate, with a negligible latency impact due to the additional context
embeddings.
- Abstract(参考訳): コンフォーメータベースのエンドツーエンドモデルは最近普及しており、ストリーミングおよび非ストリーミング自動音声認識(asr)の両方で一般的に使用されている。
デュアルモードや動的チャンクトレーニングのような技術は、ストリーミングと非ストリーミングシステムを統合するのに役立った。
しかし、完全な過去のコンテキストと限られたコンテキストのストリーミングには、パフォーマンスのギャップが残っている。
そこで本研究では,SOTA統合ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案するdynamic context conformer(dctx-conformer)は,チャンクの左コンテキストと先行する1つ以上のコンテキスト埋め込みの両方を考慮した,重複しないコンテクストキャリーオーバー機構を採用している。
sotaを25.0%の単語誤り率で上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
関連論文リスト
- Streaming Sequence Transduction through Dynamic Compression [55.0083843520833]
本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。
STARは入力ストリームを動的にセグメント化して圧縮アンカー表現を生成し、自動音声認識(ASR)においてほぼロスレス圧縮(12x)を達成する
STARは、音声とテキストの同時タスクにおいて、セグメンテーションとレイテンシ品質のトレードオフが優れており、レイテンシ、メモリフットプリント、品質が最適化されている。
論文 参考訳(メタデータ) (2024-02-02T06:31:50Z) - CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming
ASR [17.999404155015647]
音声認識のための新しいフレームワーク、チャンキング, 未来コンテキスト, 復号化(CUSIDE)を提案する。
将来のコンテキストを待つことなく、将来のコンテキストフレームをシミュレートするために、新しいシミュレーションモジュールが導入された。
実験により、現実のフレームを適切なコンテキストとして使用するのに対し、シミュレーションされた将来のコンテキストを使用すると、認識精度を維持しながら遅延を大幅に低減できることが示された。
論文 参考訳(メタデータ) (2022-03-31T02:28:48Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。