論文の概要: Knowledge Distillation from Non-streaming to Streaming ASR Encoder using
Auxiliary Non-streaming Layer
- arxiv url: http://arxiv.org/abs/2308.16415v1
- Date: Thu, 31 Aug 2023 02:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 17:48:20.126797
- Title: Knowledge Distillation from Non-streaming to Streaming ASR Encoder using
Auxiliary Non-streaming Layer
- Title(参考訳): 補助非ストリーミング層を用いた非ストリーミングからストリーミングASRエンコーダへの知識蒸留
- Authors: Kyuhong Shim, Jinkyu Lee, Simyung Chang, Kyuwoong Hwang
- Abstract要約: ストリーミング自動音声認識(ASR)モデルは、将来のコンテキストへのアクセスを制限する。
非ストリーミングからストリーミングモデルへの知識蒸留(KD)について検討した。
教師エンコーダから生徒エンコーダへの層間KDを提案する。
- 参考スコア(独自算出の注目度): 14.011579203058574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Streaming automatic speech recognition (ASR) models are restricted from
accessing future context, which results in worse performance compared to the
non-streaming models. To improve the performance of streaming ASR, knowledge
distillation (KD) from the non-streaming to streaming model has been studied,
mainly focusing on aligning the output token probabilities. In this paper, we
propose a layer-to-layer KD from the teacher encoder to the student encoder. To
ensure that features are extracted using the same context, we insert auxiliary
non-streaming branches to the student and perform KD from the non-streaming
teacher layer to the non-streaming auxiliary layer. We design a special KD loss
that leverages the autoregressive predictive coding (APC) mechanism to
encourage the streaming model to predict unseen future contexts. Experimental
results show that the proposed method can significantly reduce the word error
rate compared to previous token probability distillation methods.
- Abstract(参考訳): ストリーミング自動音声認識(asr)モデルは、将来のコンテキストへのアクセスを制限することで、非ストリーミングモデルに比べてパフォーマンスが悪化する。
ストリーミングASRの性能向上のために,非ストリーミングからストリーミングモデルへの知識蒸留(KD)について検討し,主に出力トークン確率の整合性に着目した。
本稿では,教師エンコーダから学生エンコーダへの層間kdを提案する。
特徴が同じ文脈で抽出されることを保証するため、学生に補助的な非ストリーミング分岐を挿入し、非ストリーミング教師層から非ストリーミング補助層にKDを実行する。
我々は,自動回帰予測符号化(autoregressive prediction coding, apc)機構を利用して,ストリーミングモデルに未知の将来の状況を予測するよう促す,特別なkd損失を設計する。
実験の結果, 従来のトークン確率蒸留法と比較して, 単語誤り率を有意に低減できることがわかった。
関連論文リスト
- Sample what you cant compress [6.24979299238534]
拡散に基づく損失の下で、連続エンコーダとデコーダの学習方法を示す。
このアプローチは、GANベースのオートエンコーダと比較して、再構築品質が向上する。
また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。
論文 参考訳(メタデータ) (2024-09-04T08:42:42Z) - SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文 参考訳(メタデータ) (2024-03-25T17:59:35Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - An Investigation of Enhancing CTC Model for Triggered Attention-based
Streaming ASR [19.668440671541546]
Mask-CTCとトリガアテンション機構を組み合わせることで、ストリーミングエンドツーエンド自動音声認識(ASR)システムを構築する。
提案手法は従来のトリガアテンションベースのストリーミングASRシステムよりも低レイテンシで高い精度を実現する。
論文 参考訳(メタデータ) (2021-10-20T06:44:58Z) - Bridging the gap between streaming and non-streaming ASR systems
bydistilling ensembles of CTC and RNN-T models [34.002281923671795]
エンドツーエンドの自動音声認識システムは、リアルタイムに音声をテキストに書き起こす必要がある日常的なアプリケーションで広く利用されている。
ストリーミング以外のモデルとは異なり、ストリーミングモデルは将来的なコンテキストのない因果として制約され、高いワードエラー率(wer)を被る。
ストリーミングモデルを改善するために,教師の予測を用いて教師なし発話の非ストリーミング教師モデルを抽出し,ストリーミング学生を訓練する手法を提案する。
本稿では,非ストリーミング教師モデルの多様化と認識器出力投票誤差低減(r)の併用により,このギャップを解消することを目的とする。
論文 参考訳(メタデータ) (2021-04-25T19:20:34Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - Improving Streaming Automatic Speech Recognition With Non-Streaming
Model Distillation On Unsupervised Data [44.48235209327319]
ストリーミングのエンドツーエンド自動音声認識モデルは、スマートスピーカーやデバイス上のアプリケーションで広く利用されている。
教師として非ストリーミング型ASRモデルを活用することによって,新しい効果的な学習手法を提案する。
ストリーミングモデルのトレーニングを、最大300万時間のYouTubeオーディオに拡大しています。
論文 参考訳(メタデータ) (2020-10-22T22:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。