論文の概要: CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming
ASR
- arxiv url: http://arxiv.org/abs/2203.16758v1
- Date: Thu, 31 Mar 2022 02:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:41:57.008410
- Title: CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming
ASR
- Title(参考訳): CUSIDE:ストリーミングASRのためのチャンキング、将来のコンテキストとデコード
- Authors: Keyu An and Huahuan Zheng and Zhijian Ou and Hongyu Xiang and Ke Ding
and Guanglu Wan
- Abstract要約: 音声認識のための新しいフレームワーク、チャンキング, 未来コンテキスト, 復号化(CUSIDE)を提案する。
将来のコンテキストを待つことなく、将来のコンテキストフレームをシミュレートするために、新しいシミュレーションモジュールが導入された。
実験により、現実のフレームを適切なコンテキストとして使用するのに対し、シミュレーションされた将来のコンテキストを使用すると、認識精度を維持しながら遅延を大幅に低減できることが示された。
- 参考スコア(独自算出の注目度): 17.999404155015647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: History and future contextual information are known to be important for
accurate acoustic modeling. However, acquiring future context brings latency
for streaming ASR. In this paper, we propose a new framework - Chunking,
Simulating Future Context and Decoding (CUSIDE) for streaming speech
recognition. A new simulation module is introduced to recursively simulate the
future contextual frames, without waiting for future context. The simulation
module is jointly trained with the ASR model using a self-supervised loss; the
ASR model is optimized with the usual ASR loss, e.g., CTC-CRF as used in our
experiments. Experiments show that, compared to using real future frames as
right context, using simulated future context can drastically reduce latency
while maintaining recognition accuracy. With CUSIDE, we obtain new
state-of-the-art streaming ASR results on the AISHELL-1 dataset.
- Abstract(参考訳): 正確な音響モデリングには、歴史と将来の文脈情報の重要性が知られている。
しかし、将来的なコンテキストの獲得は、ストリーミングASRのレイテンシをもたらす。
本稿では,ストリーミング音声認識のための新しい枠組み,チャンキング,将来の文脈のシミュレーション,デコード(cuside)を提案する。
将来のコンテキストを待たずに、将来のコンテキストフレームを再帰的にシミュレートするために、新しいシミュレーションモジュールが導入された。
シミュレーションモジュールは自己教師付き損失を用いてASRモデルと共同で訓練され、ASRモデルは通常のASR損失(例えば、CTC-CRF)に最適化される。
実験により、現実のフレームを適切なコンテキストとして使用するのに対し、シミュレーションされた将来のコンテキストを使用すると、認識精度を維持しながら遅延を大幅に低減できることが示された。
CUSIDEではAISHELL-1データセットから最先端のストリーミングASR結果を得る。
関連論文リスト
- DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文 参考訳(メタデータ) (2023-06-13T23:42:53Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Multi-mode Transformer Transducer with Stochastic Future Context [53.005638503544866]
マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。
マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
論文 参考訳(メタデータ) (2021-06-17T18:42:11Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。