論文の概要: Analyzing the Importance of Blank for CTC-Based Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2506.01503v1
- Date: Mon, 02 Jun 2025 10:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.295029
- Title: Analyzing the Importance of Blank for CTC-Based Knowledge Distillation
- Title(参考訳): CTCによる知識蒸留におけるブランクの重要性の分析
- Authors: Benedikt Hilmes, Nick Rossenbach, Ralf Schlüter,
- Abstract要約: 我々は, ブランクトークン処理に焦点をあてて, さまざまなCTCベースの蒸留変種について検討する。
空白除去のような一般的なアプローチは,必ずしも棚から外れているとは限らない。
知識蒸留におけるCTC損失を,性能劣化を最小限に抑えて除去することができる。
- 参考スコア(独自算出の注目度): 21.655220814355552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of large pre-trained foundation models for automatic speech recognition new challenges appear. While the performance of these models is good, runtime and cost of inference increases. One approach to make use of their strength while retaining efficiency is to distill their knowledge to smaller models during training. In this work, we explore different CTC-based distillation variants, focusing on blank token handling. We show that common approaches like blank elimination do not always work off the shelf. We explore new blank selection patterns as a potential sweet spot between standard knowledge distillation and blank elimination mechanisms. Through the introduction of a symmetric selection method, we are able to remove the CTC loss during knowledge distillation with minimal to no performance degradation. With this, we make the training independent from target labels, potentially allowing for distillation on untranscribed audio data.
- Abstract(参考訳): 音声認識のための大規模な事前学習基盤モデルが出現し、新たな課題が出現する。
これらのモデルの性能は良いが、実行時と推論コストは上昇する。
効率を保ちながらその強さを利用する一つのアプローチは、訓練中により小さなモデルに知識を蒸留することである。
本研究では, ブランクトークン処理に焦点をあて, CTCベースの蒸留変種について検討する。
空白除去のような一般的なアプローチは,必ずしも棚から外れているとは限らない。
我々は,標準知識蒸留とブランク除去機構のスイートスポットとして,新しいブランク選択パターンを探求する。
対称選択法を導入することにより, 知識蒸留におけるCTC損失を, 性能劣化を最小限に抑えて除去することができる。
これにより、トレーニングをターゲットラベルとは独立にし、未転写音声データの蒸留を可能にする可能性がある。
関連論文リスト
- Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - DistillCSE: Distilled Contrastive Learning for Sentence Embeddings [32.6620719893457]
本稿では,知識蒸留による自己学習パラダイムの下で,コントラスト学習を行うDistillCSEフレームワークを提案する。
DistillCSEの潜在的な利点は、自給自足機能である: ベースモデルを使用してさらなる監視信号を提供することで、知識蒸留を通じてより強力なモデルを学ぶことができる。
本稿では, 暗黙の正規化としてのグループ-Pシャッフル戦略と, 複数の教師コンポーネントのロジット平均化という, 知識蒸留の単純かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-10-20T13:45:59Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Maximum Likelihood Distillation for Robust Modulation Classification [50.51144496609274]
我々は、より堅牢なAMCシステムを構築するために、知識蒸留のアイデアと敵の訓練に基づいて構築する。
オフライン環境でのAMC問題を解消し,より優れたトレーニングラベルを生成するためのMaximum Likelihood関数を提案する。
論文 参考訳(メタデータ) (2022-11-01T21:06:11Z) - Decomposed Knowledge Distillation for Class-Incremental Semantic
Segmentation [34.460973847554364]
クラスインクリメンタルセマンティックセグメンテーション(CISS)は、画像の各ピクセルに対応するオブジェクト/スタッフクラスを連続的にラベル付けする。
それまでの知識を忘れずに、新しいクラスを漸進的に学ぶことが不可欠である。
我々は,忘れる問題を軽減し,新しい授業を効果的に学習するためのCISSフレームワークを導入する。
論文 参考訳(メタデータ) (2022-10-12T06:15:51Z) - Response-based Distillation for Incremental Object Detection [2.337183337110597]
従来の物体検出は漸進的な学習には不適当である。
新しいデータのみを用いて、よく訓練された検出モデルを直接微調整することで、破滅的な忘れを招きます。
本研究では,検出境界ボックスからの学習応答と分類予測に着目した完全応答に基づくインクリメンタル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-10-26T08:07:55Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Circumventing Outliers of AutoAugment with Knowledge Distillation [102.25991455094832]
AutoAugmentは多くの視覚タスクの精度を向上させる強力なアルゴリズムである。
本論文は作業機構を深く掘り下げ,AutoAugmentがトレーニング画像から識別情報の一部を除去できることを明らかにする。
教師モデルの出力に言及した知識蒸留を用いて,ネットワークトレーニングの指導を行う。
論文 参考訳(メタデータ) (2020-03-25T11:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。