論文の概要: Predicting Multi-Codebook Vector Quantization Indexes for Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2211.00508v1
- Date: Mon, 31 Oct 2022 07:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:26:42.327870
- Title: Predicting Multi-Codebook Vector Quantization Indexes for Knowledge
Distillation
- Title(参考訳): 知識蒸留用マルチコードブックベクトル量子化指数の予測
- Authors: Liyong Guo, Xiaoyu Yang, Quandong Wang, Yuxiang Kong, Zengwei Yao, Fan
Cui, Fangjun Kuang, Wei Kang, Long Lin, Mingshuang Luo, Piotr Zelasko, Daniel
Povey
- Abstract要約: 知識蒸留(KD)は,音声認識におけるモデル性能向上のための一般的な手法である。
従来のKD法は、特にトレーニングコーパスが大きい場合、教師ラベル記憶の問題に悩まされる。
我々は,教師の埋め込みをコードブックインデックスに圧縮する,新しいマルチコードブックベクトル量子化(MVQ)手法を提案する。
MVQ-KDフレームワークは従来のKDメソッドと同等のパフォーマンスを達成し、256倍のストレージを必要とする。
- 参考スコア(独自算出の注目度): 24.74672037572804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation(KD) is a common approach to improve model performance
in automatic speech recognition (ASR), where a student model is trained to
imitate the output behaviour of a teacher model. However, traditional KD
methods suffer from teacher label storage issue, especially when the training
corpora are large. Although on-the-fly teacher label generation tackles this
issue, the training speed is significantly slower as the teacher model has to
be evaluated every batch. In this paper, we reformulate the generation of
teacher label as a codec problem. We propose a novel Multi-codebook Vector
Quantization (MVQ) approach that compresses teacher embeddings to codebook
indexes (CI). Based on this, a KD training framework (MVQ-KD) is proposed where
a student model predicts the CI generated from the embeddings of a
self-supervised pre-trained teacher model. Experiments on the LibriSpeech
clean-100 hour show that MVQ-KD framework achieves comparable performance as
traditional KD methods (l1, l2), while requiring 256 times less storage. When
the full LibriSpeech dataset is used, MVQ-KD framework results in 13.8% and
8.2% relative word error rate reductions (WERRs) for non -streaming transducer
on test-clean and test-other and 4.0% and 4.9% for streaming transducer. The
implementation of this work is already released as a part of the open-source
project icefall.
- Abstract(参考訳): 知識蒸留(KD)は、教師モデルの出力動作を模倣するために学生モデルを訓練する自動音声認識(ASR)において、モデル性能を改善するための一般的なアプローチである。
しかし、従来のKD法は、特にトレーニングコーパスが大きい場合、教師ラベル記憶の問題に悩まされる。
オンザフライの教師ラベル生成はこの問題に対処するが、教師モデルの評価がバッチ毎に必要となるため、トレーニング速度は大幅に遅い。
本稿では,教師ラベルの生成をコーデック問題として再構成する。
本稿では,教師の埋め込みをコードブックインデックス(CI)に圧縮する,MVQ(Multi-codebook Vector Quantization)アプローチを提案する。
これに基づいて、学生モデルが自己指導型教師モデルの埋め込みから生成されたCIを予測するためのKDトレーニングフレームワーク(MVQ-KD)を提案する。
LibriSpeechのクリーン100時間の実験では、MVQ-KDフレームワークは従来のKDメソッド(l1, l2)と同等のパフォーマンスを達成し、256倍のストレージを必要とすることが示されている。
完全なlibrispeechデータセットを使用すると、mvq-kdフレームワークは、非ストリーミングトランスデューサのtest-cleanおよびtest-otherの13.8%と8.2%、ストリーミングトランスデューサの4.0%と4.9%という結果になる。
この実装はすでにオープンソースプロジェクトicefallの一部としてリリースされている。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - MUST: A Multilingual Student-Teacher Learning approach for low-resource
speech recognition [25.334589796554354]
学生-教師学習(KD)は、これまで、音声認識(ASR)システムの訓練において、データ不足の問題に対処するために用いられてきた。
本研究は,後部マッピング手法を利用したMUST学習を提案する。
MUST学習で訓練されたモデルは、ベースライン単言語ASRと比較して、相対的文字誤り率(CER)を最大9.5%削減する。
論文 参考訳(メタデータ) (2023-10-29T01:38:36Z) - Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free
Continual Learning [14.379472108242235]
正規化戦略として知識蒸留(KD)を併用した模範自由クラスインクリメンタルラーニング(CIL)について検討した。
KDベースの手法はCILでうまく使われているが、以前のタスクからトレーニングデータの例にアクセスできることなくモデルを規則化するのに苦労することが多い。
近年の試験時間適応法に触発されて,インクリメンタルトレーニング中に教師と主要モデルを同時に更新する手法であるTeacher Adaptation (TA)を紹介した。
論文 参考訳(メタデータ) (2023-08-18T13:22:59Z) - Black-box Few-shot Knowledge Distillation [55.27881513982002]
知識蒸留 (KD) は、大きな「教師」ネットワークからより小さな「学生」ネットワークへ知識を伝達する効率的な手法である。
そこで本研究では,未ラベルのトレーニングサンプルとブラックボックスの教師を用いて,学生を訓練するためのブラックボックス数ショットKD手法を提案する。
我々は、画像分類タスクにおいて、最近のSOTA/ゼロショットKD法よりも大幅に優れていることを示すため、広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-07-25T12:16:53Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。