論文の概要: An Empirical Investigation into the Effect of Parameter Choices in
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2401.06356v2
- Date: Mon, 19 Feb 2024 00:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:43:11.807190
- Title: An Empirical Investigation into the Effect of Parameter Choices in
Knowledge Distillation
- Title(参考訳): 知識蒸留におけるパラメータ選択の影響に関する実証的研究
- Authors: Md Arafat Sultan, Aashka Trivedi, Parul Awasthy, Avirup Sil
- Abstract要約: 本研究では,構成パラメータの選択が知識蒸留の性能に与える影響について,大規模な実証的研究を行った。
4つのNLPタスクと3つの学生サイズから13のデータセットに対して、そのような選択が学生のパフォーマンスにどの程度影響するかを明らかにする。
最適以下の選択を行うことのコストを定量化し、ボード全体でうまく機能する単一の構成を特定します。
- 参考スコア(独自算出の注目度): 14.415185250663935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a large-scale empirical study of how choices of configuration
parameters affect performance in knowledge distillation (KD). An example of
such a KD parameter is the measure of distance between the predictions of the
teacher and the student, common choices for which include the mean squared
error (MSE) and the KL-divergence. Although scattered efforts have been made to
understand the differences between such options, the KD literature still lacks
a systematic study on their general effect on student performance. We take an
empirical approach to this question in this paper, seeking to find out the
extent to which such choices influence student performance across 13 datasets
from 4 NLP tasks and 3 student sizes. We quantify the cost of making
sub-optimal choices and identify a single configuration that performs well
across the board.
- Abstract(参考訳): 本稿では,知識蒸留(kd)におけるコンフィグレーションパラメータの選択が性能に与える影響に関する大規模実証研究を行う。
そのようなkdパラメータの例としては、教師と生徒の予測の間の距離の測定があり、平均二乗誤差 (mse) と kl-ダイバージェンス (kl-divergence) を含む一般的な選択がある。
このような選択肢の違いを理解するために散在的な努力がなされているが、kd文学は学生のパフォーマンスに対する一般的な影響に関する体系的な研究をいまだに欠いている。
本論文では,4つのNLPタスクと3つの学生サイズから,13のデータセットにおいて,これらの選択が学生のパフォーマンスにどの程度影響するかを調査する。
最適以下の選択を行うことのコストを定量化し、ボード全体でうまく機能する単一の構成を特定する。
関連論文リスト
- Practical Insights into Knowledge Distillation for Pre-Trained Models [6.085875355032475]
本研究では,事前学習モデルにおける知識蒸留(KD)プロセスの強化について検討する。
事前訓練されたモデル間で知識を伝達するための多くのKDアプローチが採用されているにもかかわらず、KDの応用に関する包括的な理解は欠如している。
本研究は,標準KD,調整KD(最適化温度および重みパラメータ),深層相互学習,データ分割KDなど,複数のKD技術の比較を行った。
論文 参考訳(メタデータ) (2024-02-22T19:07:08Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:19:15Z) - Distiller: A Systematic Study of Model Distillation Methods in Natural
Language Processing [21.215122347801696]
我々は、KDパイプラインの異なるコンポーネントが結果のパフォーマンスにどのように影響するかを特定することを目指している。
我々は,KDパイプラインのさまざまな段階にわたる幅広いテクニックを組み合わせた,メタKDフレームワークであるDistillerを提案する。
異なるデータセット/タスクは異なるKDアルゴリズムを好んでおり、単純なAutoDistillerアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-23T02:12:28Z) - Understanding the Performance of Knowledge Graph Embeddings in Drug
Discovery [14.839673015887275]
知識グラフ(KG)と関連する知識グラフ埋め込み(KGE)モデルは、最近、薬物発見の文脈で研究され始めている。
本研究では, 薬物発見指向KGにおけるKGEモデルの予測性能について, 何千回もの実験を通して検討した。
結果から,これらの要因が性能に重大な影響を与え,モデルランキングにも影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-05-17T11:39:54Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。