Fugu-MT 論文翻訳(概要): Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy?

論文の概要: Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy?

arxiv url: http://arxiv.org/abs/2301.12609v1
Date: Mon, 30 Jan 2023 02:05:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 16:03:08.156723
Title: Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy?
Title（参考訳）: 知識蒸留$\approx$ Label Smoothing: Fact or Fallacy?
Authors: Md Arafat Sultan
Abstract要約: いくつかの研究は、知識蒸留(KD)が正則化の一形態であることを示唆している。本稿では,これらの2つの手法間の等価性について,訓練対象モデルの予測的不確実性を調べることによって検討する。
参考スコア（独自算出の注目度）: 2.415106369744497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contrary to its original interpretation as a facilitator of knowledge transfer from one model to another, some recent studies have suggested that knowledge distillation (KD) is instead a form of regularization. Perhaps the strongest support of all for this claim is drawn from its apparent similarities with label smoothing (LS). This paper investigates the stated equivalence between these two methods by examining the predictive uncertainties of the models they train. Experiments on four text classification tasks involving teachers and students of different capacities show that: (a) In most settings, KD and LS drive model uncertainty (entropy) in completely opposite directions, and (b) In KD, the student's predictive uncertainty is a direct function of that of its teacher, reinforcing the knowledge transfer view.
Abstract（参考訳）: あるモデルから別のモデルへの知識伝達のファシリテーターとしての本来の解釈とは対照的に、近年の研究では、知識蒸留(KD)は正則化の一形態であることを示唆している。おそらくこの主張に対する最も強い支持は、ラベルスムーシング(LS)との明らかな類似性から得られるものである。本稿では,これらの2つの手法間の等価性について,訓練対象モデルの予測的不確かさについて検討する。異なる能力を持つ教師と学生を対象とした4つのテキスト分類タスクの実験 (a)ほとんどの設定では、kd と ls はモデルの不確実性(エントロピー)を完全に反対方向に駆動する。 b)KDでは,学生の予測の不確実性は教師の直接的機能であり,知識伝達の視点を補強する。

関連論文リスト

Self-Evolution Knowledge Distillation for LLM-based Machine Translation [36.01859033056453]
我々は、自己進化KDと呼ばれる蒸留戦略を提案する。このアプローチの核心は、教師の分布と基礎的真理の1ホット分布を、事前知識として学生の分布に動的に統合することである。実験の結果,WMT22テストセットでは,4つの翻訳方向の約1.4のSacreBLEU点が平均的に改善されていることがわかった。
論文参考訳（メタデータ） (2024-12-19T12:24:15Z)
Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文参考訳（メタデータ） (2024-10-08T08:35:16Z)
Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文参考訳（メタデータ） (2024-09-03T07:42:59Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
On the Impact of Knowledge Distillation for Model Interpretability [22.18694053092722]
知識蒸留(KD)は、解釈可能性とモデルの精度を高める。本研究は,教師から生徒モデルへ伝達されるクラス類似性情報に対する解釈可能性の向上に寄与する。本研究により, 大規模モデルによるKDモデルは, 様々な分野において, より信頼性の高い利用が可能であることが示唆された。
論文参考訳（メタデータ） (2023-05-25T05:35:11Z)
AD-KD: Attribution-Driven Knowledge Distillation for Language Model Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文参考訳（メタデータ） (2023-05-17T07:40:12Z)
Adaptively Integrated Knowledge Distillation and Prediction Uncertainty for Continual Learning [71.43841235954453]
現在のディープラーニングモデルは、新しい知識を継続的に学習するときに、古い知識を破滅的に忘れることに悩まされることが多い。この問題を軽減する既存の戦略は、古い知識(安定性)の維持と新しい知識(塑性)の学習のトレードオフを解消することが多い。
論文参考訳（メタデータ） (2023-01-18T05:36:06Z)
Exploring Inconsistent Knowledge Distillation for Object Detection with Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文参考訳（メタデータ） (2022-09-20T16:36:28Z)
Learning Interpretation with Explainable Knowledge Distillation [28.00216413365036]
近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。そこで本研究では,教師モデルから学生モデルに説明文の情報を伝達する,XDistillationと呼ばれる新しい知識蒸留モデルを提案する。実験の結果,XDistillation で訓練したモデルは,予測精度および教師モデルへの忠実度の観点から,従来の KD 法で訓練したモデルよりも優れていた。
論文参考訳（メタデータ） (2021-11-12T21:18:06Z)
Revisiting Knowledge Distillation: An Inheritance and Exploration Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文参考訳（メタデータ） (2021-07-01T02:20:56Z)
Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文参考訳（メタデータ） (2021-03-18T06:54:59Z)
Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文参考訳（メタデータ） (2020-02-21T07:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。