Fugu-MT 論文翻訳(概要): An Empirical Investigation into the Effect of Parameter Choices in Knowledge Distillation

論文の概要: An Empirical Investigation into the Effect of Parameter Choices in Knowledge Distillation

arxiv url: http://arxiv.org/abs/2401.06356v2
Date: Mon, 19 Feb 2024 00:35:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 03:43:11.807190
Title: An Empirical Investigation into the Effect of Parameter Choices in Knowledge Distillation
Title（参考訳）: 知識蒸留におけるパラメータ選択の影響に関する実証的研究
Authors: Md Arafat Sultan, Aashka Trivedi, Parul Awasthy, Avirup Sil
Abstract要約: 本研究では,構成パラメータの選択が知識蒸留の性能に与える影響について,大規模な実証的研究を行った。 4つのNLPタスクと3つの学生サイズから13のデータセットに対して、そのような選択が学生のパフォーマンスにどの程度影響するかを明らかにする。最適以下の選択を行うことのコストを定量化し、ボード全体でうまく機能する単一の構成を特定します。
参考スコア（独自算出の注目度）: 14.415185250663935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a large-scale empirical study of how choices of configuration parameters affect performance in knowledge distillation (KD). An example of such a KD parameter is the measure of distance between the predictions of the teacher and the student, common choices for which include the mean squared error (MSE) and the KL-divergence. Although scattered efforts have been made to understand the differences between such options, the KD literature still lacks a systematic study on their general effect on student performance. We take an empirical approach to this question in this paper, seeking to find out the extent to which such choices influence student performance across 13 datasets from 4 NLP tasks and 3 student sizes. We quantify the cost of making sub-optimal choices and identify a single configuration that performs well across the board.
Abstract（参考訳）: 本稿では,知識蒸留(kd)におけるコンフィグレーションパラメータの選択が性能に与える影響に関する大規模実証研究を行う。そのようなkdパラメータの例としては、教師と生徒の予測の間の距離の測定があり、平均二乗誤差 (mse) と kl-ダイバージェンス (kl-divergence) を含む一般的な選択がある。このような選択肢の違いを理解するために散在的な努力がなされているが、kd文学は学生のパフォーマンスに対する一般的な影響に関する体系的な研究をいまだに欠いている。本論文では,4つのNLPタスクと3つの学生サイズから,13のデータセットにおいて,これらの選択が学生のパフォーマンスにどの程度影響するかを調査する。最適以下の選択を行うことのコストを定量化し、ボード全体でうまく機能する単一の構成を特定する。

関連論文リスト

Exploring Structural Degradation in Dense Representations for Self-supervised Learning [84.52554180480037]
自己教師付き学習(SSL)における直感的な現象を観察する。我々は、この現象を自己教師付きDense Degradation(SDD)と呼び、16の最先端SSLメソッドに一貫した存在を示す。本稿では,クラス関連尺度と有効次元尺度からなるDense Expression Structure Estimator (DSE)を紹介する。
論文参考訳（メタデータ） (2025-10-20T08:40:16Z)
An Empirical Study of Knowledge Distillation for Code Understanding Tasks [19.64130505527951]
知識蒸留(KD)は、大きな教師モデルからコンパクトな学生モデルに知識を移すことによって制限に対処する。本稿では,コード理解タスクにおけるKDの有効性と使用法を体系的に検討する。
論文参考訳（メタデータ） (2025-08-21T10:24:48Z)
(Mis)Fitting: A Survey of Scaling Laws [52.598843243928584]
本稿では,パラメータ比に対する最適トークンのような質問に対して,いくつかの先行研究が到達した結論の相違について論じる。スケーリングのトレンドを研究する50以上の論文を調査します。本稿では,法律研究のスケールアップに寄与しながら,著者が考慮すべきチェックリストを提案する。
論文参考訳（メタデータ） (2025-02-26T09:27:54Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文参考訳（メタデータ） (2024-06-28T09:23:40Z)
Practical Insights into Knowledge Distillation for Pre-Trained Models [6.085875355032475]
本研究では,事前学習モデルにおける知識蒸留(KD)プロセスの強化について検討する。事前訓練されたモデル間で知識を伝達するための多くのKDアプローチが採用されているにもかかわらず、KDの応用に関する包括的な理解は欠如している。本研究は,標準KD,調整KD(最適化温度および重みパラメータ),深層相互学習,データ分割KDなど,複数のKD技術の比較を行った。
論文参考訳（メタデータ） (2024-02-22T19:07:08Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
In Search of Insights, Not Magic Bullets: Towards Demystification of the Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文参考訳（メタデータ） (2023-02-06T16:55:37Z)
Differentiating Student Feedbacks for Knowledge Tracing [28.669001606806525]
本稿では,訓練における評価に基づいて,様々な反応の寄与を再重み付けする枠組みを提案する。また,判別応答の少ない精度を維持するために,適応的な予測スコア融合手法を導入する。
論文参考訳（メタデータ） (2022-12-16T13:55:07Z)
Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。 RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。 PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文参考訳（メタデータ） (2021-12-09T11:19:15Z)
Distiller: A Systematic Study of Model Distillation Methods in Natural Language Processing [21.215122347801696]
我々は、KDパイプラインの異なるコンポーネントが結果のパフォーマンスにどのように影響するかを特定することを目指している。我々は,KDパイプラインのさまざまな段階にわたる幅広いテクニックを組み合わせた,メタKDフレームワークであるDistillerを提案する。異なるデータセット/タスクは異なるKDアルゴリズムを好んでおり、単純なAutoDistillerアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-09-23T02:12:28Z)
Understanding the Performance of Knowledge Graph Embeddings in Drug Discovery [14.839673015887275]
知識グラフ(KG)と関連する知識グラフ埋め込み(KGE)モデルは、最近、薬物発見の文脈で研究され始めている。本研究では, 薬物発見指向KGにおけるKGEモデルの予測性能について, 何千回もの実験を通して検討した。結果から,これらの要因が性能に重大な影響を与え,モデルランキングにも影響を及ぼす可能性が示唆された。
論文参考訳（メタデータ） (2021-05-17T11:39:54Z)
Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-05T00:49:14Z)
Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文参考訳（メタデータ） (2020-07-03T19:54:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。