論文の概要: Reducing the gap between streaming and non-streaming Transducer-based
ASR by adaptive two-stage knowledge distillation
- arxiv url: http://arxiv.org/abs/2306.15171v1
- Date: Tue, 27 Jun 2023 03:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 14:48:33.003981
- Title: Reducing the gap between streaming and non-streaming Transducer-based
ASR by adaptive two-stage knowledge distillation
- Title(参考訳): 適応型2段階知識蒸留によるストリーミングと非ストリーミングトランスデューサASRのギャップ低減
- Authors: Haitao Tang, Yu Fu, Lei Sun, Jiabin Xue, Dan Liu, Yongchao Li,
Zhiqiang Ma, Minghui Wu, Jia Pan, Genshun Wan, and Ming'en Zhao
- Abstract要約: 本研究では,隠れ層学習と出力層学習を組み合わせた2段階の知識蒸留手法を提案する。
ワードエラー率を19%削減し、最初のトークンに対する応答をLibriSpeech corpusのオリジナルストリーミングモデルと比較して高速化した。
- 参考スコア(独自算出の注目度): 19.669543120766658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transducer is one of the mainstream frameworks for streaming speech
recognition. There is a performance gap between the streaming and non-streaming
transducer models due to limited context. To reduce this gap, an effective way
is to ensure that their hidden and output distributions are consistent, which
can be achieved by hierarchical knowledge distillation. However, it is
difficult to ensure the distribution consistency simultaneously because the
learning of the output distribution depends on the hidden one. In this paper,
we propose an adaptive two-stage knowledge distillation method consisting of
hidden layer learning and output layer learning. In the former stage, we learn
hidden representation with full context by applying mean square error loss
function. In the latter stage, we design a power transformation based adaptive
smoothness method to learn stable output distribution. It achieved 19\%
relative reduction in word error rate, and a faster response for the first
token compared with the original streaming model in LibriSpeech corpus.
- Abstract(参考訳): transducerは、ストリーミング音声認識の主流フレームワークの1つである。
ストリーミングと非ストリーミングトランスデューサモデルの間には,コンテキストの制限によるパフォーマンスギャップがある。
このギャップを減らすための効果的な方法は、隠れた分布と出力の分布が一貫していることを保証することである。
しかし、出力分布の学習が隠れた分布に依存するため、分布の一貫性を同時に確保することは困難である。
本稿では,隠れ層学習と出力層学習からなる適応型二段階知識蒸留法を提案する。
前段では,平均二乗誤差損失関数を適用することで,フルコンテキストの隠れ表現を学習する。
後者の段階では,安定な出力分布を学習するための電力変換に基づく適応平滑性法を考案する。
LibriSpeech corpus のオリジナルストリーミングモデルと比較すると,単語エラー率を 19 % 削減し,最初のトークンに対する応答を高速化した。
関連論文リスト
- SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文 参考訳(メタデータ) (2024-03-25T17:59:35Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - DiffEnc: Variational Diffusion with a Learned Encoder [14.045374947755922]
拡散過程にデータと深度に依存した平均関数を導入し,拡散損失を改良した。
提案するフレームワークであるDiffEncは,CIFAR-10の確率を統計的に有意に向上させる。
論文 参考訳(メタデータ) (2023-10-30T17:54:36Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial
Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。
我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。
提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-02-19T20:18:49Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。