論文の概要: An Empirical Investigation into the Effect of Parameter Choices in
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2401.06356v1
- Date: Fri, 12 Jan 2024 04:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:33:26.241972
- Title: An Empirical Investigation into the Effect of Parameter Choices in
Knowledge Distillation
- Title(参考訳): 知識蒸留におけるパラメータ選択の影響に関する実証的研究
- Authors: Md Arafat Sultan, Aashka Trivedi, Parul Awasthy, Avirup Sil
- Abstract要約: 本研究では,構成パラメータの選択が知識蒸留の性能に与える影響について,大規模な実証的研究を行った。
4つのNLPタスクと3つの学生サイズから13のデータセットに対して、そのような選択が学生のパフォーマンスにどの程度影響するかを明らかにする。
最適以下の選択を行うことのコストを定量化し、ボード全体でうまく機能する単一の構成を特定します。
- 参考スコア(独自算出の注目度): 14.415185250663935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a large-scale empirical study of how choices of configuration
parameters affect performance in knowledge distillation (KD). An example of
such a KD parameter is the measure of distance between the predictions of the
teacher and the student, common choices for which include the mean squared
error (MSE) and the KL-divergence. Although scattered efforts have been made to
understand the differences between such options, the KD literature still lacks
a systematic study on their general effect on student performance. We take an
empirical approach to this question in this paper, seeking to find out the
extent to which such choices influence student performance across 13 datasets
from 4 NLP tasks and 3 student sizes. We quantify the cost of making
sub-optimal choices and identify a single configuration that performs well
across the board.
- Abstract(参考訳): 本稿では,知識蒸留(kd)におけるコンフィグレーションパラメータの選択が性能に与える影響に関する大規模実証研究を行う。
そのようなkdパラメータの例としては、教師と生徒の予測の間の距離の測定があり、平均二乗誤差 (mse) と kl-ダイバージェンス (kl-divergence) を含む一般的な選択がある。
このような選択肢の違いを理解するために散在的な努力がなされているが、kd文学は学生のパフォーマンスに対する一般的な影響に関する体系的な研究をいまだに欠いている。
本論文では,4つのNLPタスクと3つの学生サイズから,13のデータセットにおいて,これらの選択が学生のパフォーマンスにどの程度影響するかを調査する。
最適以下の選択を行うことのコストを定量化し、ボード全体でうまく機能する単一の構成を特定する。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Practical Insights into Knowledge Distillation for Pre-Trained Models [6.085875355032475]
本研究では,事前学習モデルにおける知識蒸留(KD)プロセスの強化について検討する。
事前訓練されたモデル間で知識を伝達するための多くのKDアプローチが採用されているにもかかわらず、KDの応用に関する包括的な理解は欠如している。
本研究は,標準KD,調整KD(最適化温度および重みパラメータ),深層相互学習,データ分割KDなど,複数のKD技術の比較を行った。
論文 参考訳(メタデータ) (2024-02-22T19:07:08Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:19:15Z) - Distiller: A Systematic Study of Model Distillation Methods in Natural
Language Processing [21.215122347801696]
我々は、KDパイプラインの異なるコンポーネントが結果のパフォーマンスにどのように影響するかを特定することを目指している。
我々は,KDパイプラインのさまざまな段階にわたる幅広いテクニックを組み合わせた,メタKDフレームワークであるDistillerを提案する。
異なるデータセット/タスクは異なるKDアルゴリズムを好んでおり、単純なAutoDistillerアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-23T02:12:28Z) - Understanding the Performance of Knowledge Graph Embeddings in Drug
Discovery [14.839673015887275]
知識グラフ(KG)と関連する知識グラフ埋め込み(KGE)モデルは、最近、薬物発見の文脈で研究され始めている。
本研究では, 薬物発見指向KGにおけるKGEモデルの予測性能について, 何千回もの実験を通して検討した。
結果から,これらの要因が性能に重大な影響を与え,モデルランキングにも影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-05-17T11:39:54Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。