Fugu-MT 論文翻訳(概要): Reducing the gap between streaming and non-streaming Transducer-based ASR by adaptive two-stage knowledge distillation

論文の概要: Reducing the gap between streaming and non-streaming Transducer-based ASR by adaptive two-stage knowledge distillation

arxiv url: http://arxiv.org/abs/2306.15171v1
Date: Tue, 27 Jun 2023 03:11:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 14:48:33.003981
Title: Reducing the gap between streaming and non-streaming Transducer-based ASR by adaptive two-stage knowledge distillation
Title（参考訳）: 適応型2段階知識蒸留によるストリーミングと非ストリーミングトランスデューサASRのギャップ低減
Authors: Haitao Tang, Yu Fu, Lei Sun, Jiabin Xue, Dan Liu, Yongchao Li, Zhiqiang Ma, Minghui Wu, Jia Pan, Genshun Wan, and Ming'en Zhao
Abstract要約: 本研究では,隠れ層学習と出力層学習を組み合わせた2段階の知識蒸留手法を提案する。ワードエラー率を19%削減し、最初のトークンに対する応答をLibriSpeech corpusのオリジナルストリーミングモデルと比較して高速化した。
参考スコア（独自算出の注目度）: 19.669543120766658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transducer is one of the mainstream frameworks for streaming speech recognition. There is a performance gap between the streaming and non-streaming transducer models due to limited context. To reduce this gap, an effective way is to ensure that their hidden and output distributions are consistent, which can be achieved by hierarchical knowledge distillation. However, it is difficult to ensure the distribution consistency simultaneously because the learning of the output distribution depends on the hidden one. In this paper, we propose an adaptive two-stage knowledge distillation method consisting of hidden layer learning and output layer learning. In the former stage, we learn hidden representation with full context by applying mean square error loss function. In the latter stage, we design a power transformation based adaptive smoothness method to learn stable output distribution. It achieved 19\% relative reduction in word error rate, and a faster response for the first token compared with the original streaming model in LibriSpeech corpus.
Abstract（参考訳）: transducerは、ストリーミング音声認識の主流フレームワークの1つである。ストリーミングと非ストリーミングトランスデューサモデルの間には,コンテキストの制限によるパフォーマンスギャップがある。このギャップを減らすための効果的な方法は、隠れた分布と出力の分布が一貫していることを保証することである。しかし、出力分布の学習が隠れた分布に依存するため、分布の一貫性を同時に確保することは困難である。本稿では,隠れ層学習と出力層学習からなる適応型二段階知識蒸留法を提案する。前段では,平均二乗誤差損失関数を適用することで,フルコンテキストの隠れ表現を学習する。後者の段階では,安定な出力分布を学習するための電力変換に基づく適応平滑性法を考案する。 LibriSpeech corpus のオリジナルストリーミングモデルと比較すると,単語エラー率を 19 % 削減し,最初のトークンに対する応答を高速化した。

関連論文リスト

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution [14.57591222028278]
クロスモーダルフローマッチングのための汎用的でシンプルなフレームワークであるCrossFlowを提案する。本稿では、入力データに変分法を適用することの重要性を示し、フリーガイダンスを実現する方法を提案する。また,本手法の一般化可能性を示すため,CrossFlowは多種多様なクロスモーダル/イントラモーダルマッピングタスクの最先端性に匹敵する性能を示した。
論文参考訳（メタデータ） (2024-12-19T18:59:56Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文参考訳（メタデータ） (2024-06-26T17:40:30Z)
Improving Consistency Models with Generator-Induced Flows [16.049476783301724]
一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを模倣する。それらは、一貫性の蒸留と一貫性のトレーニングの2つの方法を学ぶことができる。本稿では,現在訓練されているモデルから得られた雑音データを対応する出力へ転送する新しい流れを提案する。
論文参考訳（メタデータ） (2024-06-13T20:22:38Z)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-13T06:27:13Z)
SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文参考訳（メタデータ） (2024-03-25T17:59:35Z)
DiffEnc: Variational Diffusion with a Learned Encoder [14.045374947755922]
拡散過程にデータと深度に依存した平均関数を導入し,拡散損失を改良した。提案するフレームワークであるDiffEncは,CIFAR-10の確率を統計的に有意に向上させる。
論文参考訳（メタデータ） (2023-10-30T17:54:36Z)
Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。本稿では,2段階の学習手法を用いて,これらの制約に対処する。提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文参考訳（メタデータ） (2023-09-18T11:30:58Z)
Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文参考訳（メタデータ） (2022-04-15T17:24:39Z)
Distribution Mismatch Correction for Improved Robustness in Deep Neural Networks [86.42889611784855]
正規化法はノイズや入力の腐敗に関して脆弱性を増大させる本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文参考訳（メタデータ） (2021-10-05T11:36:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。