Fugu-MT 論文翻訳(概要): Learning Interpretation with Explainable Knowledge Distillation

論文の概要: Learning Interpretation with Explainable Knowledge Distillation

arxiv url: http://arxiv.org/abs/2111.06945v1
Date: Fri, 12 Nov 2021 21:18:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-19 04:29:07.692470
Title: Learning Interpretation with Explainable Knowledge Distillation
Title（参考訳）: 説明可能な知識蒸留による学習解釈
Authors: Raed Alharbi, Minh N. Vu, My T. Thai
Abstract要約: 近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。そこで本研究では,教師モデルから学生モデルに説明文の情報を伝達する,XDistillationと呼ばれる新しい知識蒸留モデルを提案する。実験の結果,XDistillation で訓練したモデルは,予測精度および教師モデルへの忠実度の観点から,従来の KD 法で訓練したモデルよりも優れていた。
参考スコア（独自算出の注目度）: 28.00216413365036
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Knowledge Distillation (KD) has been considered as a key solution in model compression and acceleration in recent years. In KD, a small student model is generally trained from a large teacher model by minimizing the divergence between the probabilistic outputs of the two. However, as demonstrated in our experiments, existing KD methods might not transfer critical explainable knowledge of the teacher to the student, i.e. the explanations of predictions made by the two models are not consistent. In this paper, we propose a novel explainable knowledge distillation model, called XDistillation, through which both the performance the explanations' information are transferred from the teacher model to the student model. The XDistillation model leverages the idea of convolutional autoencoders to approximate the teacher explanations. Our experiments shows that models trained by XDistillation outperform those trained by conventional KD methods not only in term of predictive accuracy but also faithfulness to the teacher models.
Abstract（参考訳）: 近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。 KDでは、2人の確率的アウトプットのばらつきを最小限に抑えて、大きな教師モデルから小学生モデルを訓練することが一般的である。しかし,本実験で示されたように,既存のKD手法では教師の批判的な知識を学生に伝達することはできない。本稿では,教師モデルから生徒モデルへ説明情報の伝達を行う,x蒸留と呼ばれる新しい説明可能な知識蒸留モデルを提案する。 XDistillationモデルは、畳み込みオートエンコーダの概念を利用して教師の説明を近似する。実験の結果,XDistillationによる学習モデルは,予測精度だけでなく,教師モデルへの忠実性においても従来のKD法よりも優れていた。

関連論文リスト

Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。 7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文参考訳（メタデータ） (2025-02-17T12:58:12Z)
Self-Evolution Knowledge Distillation for LLM-based Machine Translation [36.01859033056453]
我々は、自己進化KDと呼ばれる蒸留戦略を提案する。このアプローチの核心は、教師の分布と基礎的真理の1ホット分布を、事前知識として学生の分布に動的に統合することである。実験の結果,WMT22テストセットでは,4つの翻訳方向の約1.4のSacreBLEU点が平均的に改善されていることがわかった。
論文参考訳（メタデータ） (2024-12-19T12:24:15Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。 KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文参考訳（メタデータ） (2023-10-04T04:18:01Z)
Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文参考訳（メタデータ） (2023-05-27T21:25:55Z)
AD-KD: Attribution-Driven Knowledge Distillation for Language Model Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文参考訳（メタデータ） (2023-05-17T07:40:12Z)
Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-05-16T08:41:30Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)
DE-RRD: A Knowledge Distillation Framework for Recommender System [16.62204445256007]
DE-RRDと呼ばれるレコメンダーシステムのためのナレッジ蒸留フレームワークを提案する。これにより,教師モデルにエンコードされた潜在知識や教師の予測から学習モデルを学ぶことができる。実験の結果,DE-RRDは最先端の競争相手よりも優れており,より高速な推論時間で教師モデルに匹敵する,あるいはさらに優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2020-12-08T11:09:22Z)
Joint learning of interpretation and distillation [7.412850488684037]
本稿では,GBDT2NNの予測をそれぞれ説明するための新しいアプローチに関する実証的研究を行う。いくつかのベンチマーク実験により、提案手法は説明と予測の両方でより良い性能が得られることが示された。
論文参考訳（メタデータ） (2020-05-24T02:01:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。