論文の概要: CoDERT: Distilling Encoder Representations with Co-learning for
Transducer-based Speech Recognition
- arxiv url: http://arxiv.org/abs/2106.07734v1
- Date: Mon, 14 Jun 2021 20:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:23:44.778714
- Title: CoDERT: Distilling Encoder Representations with Co-learning for
Transducer-based Speech Recognition
- Title(参考訳): CoDERT:トランスデューサに基づく音声認識のためのコラーニングによる蒸留エンコーダ表現
- Authors: Rupak Vignesh Swaminathan, Brian King, Grant P. Strimel, Jasha Droppo,
Athanasios Mouchtaris
- Abstract要約: トランスデューサのエンコーダ出力は自然に高いエントロピーを持ち、音響的に類似した単語-ピースの混同に関する豊富な情報を含んでいることを示す。
本稿では,教師のトランスデューサのエンコーダのロジットを蒸留するための補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を探る。
- 参考スコア(独自算出の注目度): 14.07385381963374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple yet effective method to compress an RNN-Transducer
(RNN-T) through the well-known knowledge distillation paradigm. We show that
the transducer's encoder outputs naturally have a high entropy and contain rich
information about acoustically similar word-piece confusions. This rich
information is suppressed when combined with the lower entropy decoder outputs
to produce the joint network logits. Consequently, we introduce an auxiliary
loss to distill the encoder logits from a teacher transducer's encoder, and
explore training strategies where this encoder distillation works effectively.
We find that tandem training of teacher and student encoders with an inplace
encoder distillation outperforms the use of a pre-trained and static teacher
transducer. We also report an interesting phenomenon we refer to as implicit
distillation, that occurs when the teacher and student encoders share the same
decoder. Our experiments show 5.37-8.4% relative word error rate reductions
(WERR) on in-house test sets, and 5.05-6.18% relative WERRs on LibriSpeech test
sets.
- Abstract(参考訳): 本稿では,RNN-Transducer (RNN-T) をよく知られた知識蒸留パラダイムによって圧縮する,シンプルで効果的な方法を提案する。
トランスデューサエンコーダの出力は自然に高いエントロピーを持ち、音響的に類似したワードピースの混乱に関する豊富な情報を含んでいる。
このリッチな情報は、低エントロピーデコーダ出力と組み合わせてジョイントネットワークロジットを生成すると抑制される。
そこで本研究では,教師トランスデューサのエンコーダのロートを蒸留する補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を検討する。
インプレースエンコーダ蒸留による教師と生徒のタンデム訓練は,教師の事前訓練および静的トランスデューサの使用よりも優れていた。
また,教師と生徒のエンコーダが同じデコーダを共有した時に生じる,暗黙的蒸留と呼ばれる興味深い現象を報告する。
実験の結果, 社内テストセットでは5.37-8.4%, LibriSpeechテストセットでは5.05-6.18%であった。
関連論文リスト
- How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval? [99.87554379608224]
クロスエンコーダのクロスモーダル類似度スコア分布は、二重エンコーダの結果がほぼ正常である間により集中する。
強陰性間の相対的な順序だけが有効な知識を伝達する一方、容易な負性間の順序情報はほとんど意味を持たない。
本研究では, コントラスト学習を用いて, 硬質負試料間の相対的な順序を模倣することを目的とした, コントラスト部分式蒸留法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:10:01Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - AWEncoder: Adversarial Watermarking Pre-trained Encoders in Contrastive
Learning [18.90841192412555]
コントラスト学習において,事前学習したエンコーダをウォーターマークする逆法であるAWEncoderを導入する。
提案した研究は、異なるコントラスト学習アルゴリズムや下流タスクにおいて、極めて優れた有効性と堅牢性を持っている。
論文 参考訳(メタデータ) (2022-08-08T07:23:37Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - A Generative Approach to Titling and Clustering Wikipedia Sections [12.154365109117025]
我々は、ウィキペディア記事のセクションヘッダ生成という新たなタスクを通じて、情報組織のための様々なデコーダを用いたトランスフォーマーエンコーダを評価する。
分析の結果,符号化器の出力に対する注意機構を含むデコーダは,抽出テキストを生成することで高いスコア付け結果が得られることがわかった。
注意のないデコーダはセマンティックエンコーディングを容易にし、セクション埋め込みを生成するのに使うことができる。
論文 参考訳(メタデータ) (2020-05-22T14:49:07Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。