論文の概要: Guiding Frame-Level CTC Alignments Using Self-knowledge Distillation
- arxiv url: http://arxiv.org/abs/2406.07909v1
- Date: Wed, 12 Jun 2024 06:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:15:17.132838
- Title: Guiding Frame-Level CTC Alignments Using Self-knowledge Distillation
- Title(参考訳): 自己知識蒸留によるフレームレベルCTCアライメントの誘導
- Authors: Eungbeom Kim, Hantae Kim, Kyogu Lee,
- Abstract要約: 本稿では, 訓練期間中のフレームレベルのアライメントを誘導する自己知識蒸留(SKD)手法を提案する。
全体として、我々のアプローチは資源効率と性能の両方を改善するのに効果的です。
- 参考スコア(独自算出の注目度): 16.35460453348319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer encoder with connectionist temporal classification (CTC) framework is widely used for automatic speech recognition (ASR). However, knowledge distillation (KD) for ASR displays a problem of disagreement between teacher-student models in frame-level alignment which ultimately hinders it from improving the student model's performance. In order to resolve this problem, this paper introduces a self-knowledge distillation (SKD) method that guides the frame-level alignment during the training time. In contrast to the conventional method using separate teacher and student models, this study introduces a simple and effective method sharing encoder layers and applying the sub-model as the student model. Overall, our approach is effective in improving both the resource efficiency as well as performance. We also conducted an experimental analysis of the spike timings to illustrate that the proposed method improves performance by reducing the alignment disagreement.
- Abstract(参考訳): コネクショニスト時間分類(CTC)フレームワークを用いたトランスフォーマーエンコーダは、音声認識(ASR)に広く利用されている。
しかし、ASRの知識蒸留(KD)は、学生モデルの性能向上を阻害するフレームレベルのアライメントにおいて、教師と生徒の間で不一致の問題を生じさせる。
この問題を解決するために,本研究では,フレームレベルのアライメントをトレーニング時にガイドする自己知識蒸留(SKD)手法を提案する。
本研究は,教師モデルと学生モデルを用いた従来の手法とは対照的に,エンコーダ層をシンプルかつ効果的に共有し,サブモデルを学生モデルとして適用する手法を提案する。
全体として、我々のアプローチは資源効率と性能の両方を改善するのに効果的です。
また,スパイクタイミングを実験的に解析し,アライメントの不一致を低減し,提案手法が性能を向上させることを示す。
関連論文リスト
- Cross-View Consistency Regularisation for Knowledge Distillation [13.918476599394603]
この研究は、半教師付き学習のような分野におけるクロスビュー学習の成功に触発されている。
標準ロジット蒸留フレームワークにインテリアビューおよびクロスビューレギュラー化を導入する。
また,教師の蒸留信号の品質向上のために,信頼性に基づくソフトラベルマイニングを実施している。
論文 参考訳(メタデータ) (2024-12-21T05:41:47Z) - Dynamic Contrastive Knowledge Distillation for Efficient Image Restoration [17.27061613884289]
画像復元のための動的コントラスト知識蒸留(DCKD)フレームワークを提案する。
具体的には,学生の学習状態を知覚するために,動的コントラスト正規化を導入する。
また,教師モデルと学生モデルの画素レベルのカテゴリ分布を抽出・調整する分布マッピングモジュールを提案する。
論文 参考訳(メタデータ) (2024-12-12T05:01:17Z) - Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。
我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T13:21:13Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。