論文の概要: f-Divergence Minimization for Sequence-Level Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2307.15190v1
- Date: Thu, 27 Jul 2023 20:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 14:22:43.271763
- Title: f-Divergence Minimization for Sequence-Level Knowledge Distillation
- Title(参考訳): シーケンスレベル知識蒸留のためのf-divergence最小化
- Authors: Yuqiao Wen, Zichao Li, Wenyu Du, Lili Mou
- Abstract要約: 知識蒸留 (KD) は、大きなモデルから小さなモデルへ知識を伝達する過程である。
一般化f分割関数の最小化としてシーケンスレベルの知識蒸留を定式化するf-DISTILLフレームワークを提案する。
4つのデータセットで実験したところ、我々の手法は既存のKD手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 23.513372304624486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is the process of transferring knowledge from a
large model to a small one. It has gained increasing attention in the natural
language processing community, driven by the demands of compressing
ever-growing language models. In this work, we propose an f-DISTILL framework,
which formulates sequence-level knowledge distillation as minimizing a
generalized f-divergence function. We propose four distilling variants under
our framework and show that existing SeqKD and ENGINE approaches are
approximations of our f-DISTILL methods. We further derive step-wise
decomposition for our f-DISTILL, reducing intractable sequence-level divergence
to word-level losses that can be computed in a tractable manner. Experiments
across four datasets show that our methods outperform existing KD approaches,
and that our symmetric distilling losses can better force the student to learn
from the teacher distribution.
- Abstract(参考訳): 知識蒸留 (KD) は、大きなモデルから小さなモデルへ知識を伝達する過程である。
自然言語処理コミュニティでは、成長を続ける言語モデルを圧縮する要求によって、その関心が高まっている。
本研究では,一般化されたf-divergence関数の最小化として,シーケンスレベルの知識蒸留を定式化するf-蒸留フレームワークを提案する。
本フレームワークでは,4つの蒸留変種を提案し,既存のSeqKD法とENGINE法がf-DISTILL法の近似であることを示す。
さらに、f-DISTILLのステップワイズ分解を導出し、抽出可能な方法で計算可能な単語レベルの損失に対する難解なシーケンスレベルのばらつきを低減する。
4つのデータセットで実験したところ、我々の手法は既存のKD手法よりも優れており、対称蒸留による損失は、教師の分布から学ぶことを強いる可能性があることがわかった。
関連論文リスト
- Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Teaching with Uncertainty: Unleashing the Potential of Knowledge Distillation in Object Detection [47.0507287491627]
本稿では,物体検出のための知識の不確実性を考慮した特徴量に基づく蒸留パラダイムを提案する。
モンテカルロのドロップアウト手法を利用して,学生モデルの学習過程に知識の不確実性を導入する。
本手法は,複雑な構造や計算資源を必要とせずに,KDプロセス中に効果的に機能する。
論文 参考訳(メタデータ) (2024-06-11T06:51:02Z) - Regularized DeepIV with Model Selection [72.17508967124081]
正規化DeepIV(RDIV)回帰は最小ノルムIV解に収束することができる。
我々の手法は現在の最先端の収束率と一致している。
論文 参考訳(メタデータ) (2024-03-07T05:38:56Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - Dynamic Sub-graph Distillation for Robust Semi-supervised Continual
Learning [52.046037471678005]
半教師付き連続学習(SSCL)に焦点をあて、そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。
半教師付き連続学習のための動的サブグラフ蒸留法(DSGD)を提案する。
論文 参考訳(メタデータ) (2023-12-27T04:40:12Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。