Fugu-MT 論文翻訳(概要): Improve Knowledge Distillation via Label Revision and Data Selection

論文の概要: Improve Knowledge Distillation via Label Revision and Data Selection

arxiv url: http://arxiv.org/abs/2404.03693v1
Date: Wed, 3 Apr 2024 02:41:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 17:55:13.449729
Title: Improve Knowledge Distillation via Label Revision and Data Selection
Title（参考訳）: ラベル改訂とデータ選択による知識蒸留の改善
Authors: Weichao Lan, Yiu-ming Cheung, Qing Xu, Buhua Liu, Zhikai Hu, Mengke Li, Zhenghua Chen,
Abstract要約: 本稿では,教師の不正確な予測を基礎的真理を用いて修正することを提案する。後者では,教師が指導する適切なトレーニングサンプルを選択するためのデータ選択手法を提案する。実験の結果,提案手法の有効性を実証し,他の蒸留法と組み合わせることができることを示した。
参考スコア（独自算出の注目度）: 37.74822443555646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge distillation (KD) has become a widely used technique in the field of model compression, which aims to transfer knowledge from a large teacher model to a lightweight student model for efficient network development. In addition to the supervision of ground truth, the vanilla KD method regards the predictions of the teacher as soft labels to supervise the training of the student model. Based on vanilla KD, various approaches have been developed to further improve the performance of the student model. However, few of these previous methods have considered the reliability of the supervision from teacher models. Supervision from erroneous predictions may mislead the training of the student model. This paper therefore proposes to tackle this problem from two aspects: Label Revision to rectify the incorrect supervision and Data Selection to select appropriate samples for distillation to reduce the impact of erroneous supervision. In the former, we propose to rectify the teacher's inaccurate predictions using the ground truth. In the latter, we introduce a data selection technique to choose suitable training samples to be supervised by the teacher, thereby reducing the impact of incorrect predictions to some extent. Experiment results demonstrate the effectiveness of our proposed method, and show that our method can be combined with other distillation approaches, improving their performance.
Abstract（参考訳）: 知識蒸留(KD)は,大規模な教師モデルから,効率的なネットワーク開発のための軽量学生モデルへ知識を伝達することを目的とした,モデル圧縮の分野で広く利用されている技術である。バニラKD法は,教師の予測をソフトラベルとみなし,学生モデルの訓練を監督する。バニラKDに基づいて,学生モデルの性能向上のための様々なアプローチが開発されている。しかし,教師モデルからの指導の信頼性を考慮に入れた従来の手法はほとんどない。誤った予測による監督は、学生モデルのトレーニングを誤解させる可能性がある。そこで本研究では, 不正な管理を正すラベルリビジョンと, 不正な管理の影響を軽減するため, 蒸留に適したサンプルを選択するデータ選択という2つの側面からこの問題に取り組むことを提案する。前者では,教師の不正確な予測を基礎的真理を用いて修正することを提案する。後者では,教師が指導する適切なトレーニングサンプルを選択するためのデータ選択手法を導入し,誤予測の影響をある程度低減する。実験の結果,提案手法の有効性を実証し, 他の蒸留法と組み合わせることで, 性能を向上できることを示した。

関連論文リスト

Self-Evolution Knowledge Distillation for LLM-based Machine Translation [36.01859033056453]
我々は、自己進化KDと呼ばれる蒸留戦略を提案する。このアプローチの核心は、教師の分布と基礎的真理の1ホット分布を、事前知識として学生の分布に動的に統合することである。実験の結果,WMT22テストセットでは,4つの翻訳方向の約1.4のSacreBLEU点が平均的に改善されていることがわかった。
論文参考訳（メタデータ） (2024-12-19T12:24:15Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Dynamic Guidance Adversarial Distillation with Enhanced Teacher Knowledge [17.382306203152943]
Dynamic Guidance Adversarial Distillation (DGAD) フレームワークは、差分サンプルの重要性の課題に取り組む。 DGADは蒸留焦点を動的に調整するためにミスクラス化認識分割(MAP)を使用している。 Error-corrective Label Swapping (ELS) は、クリーン入力と逆入力の両方で教師の誤分類を補正する。
論文参考訳（メタデータ） (2024-09-03T05:52:37Z)
A Study on Knowledge Distillation from Weak Teacher for Scaling Up Pre-trained Language Models [104.64899255277443]
弱教師 (DWT) による蒸留は、より小さく弱い教師モデルからより大きな学生モデルへ知識を伝達し、その性能を向上させる方法である。本研究では,視覚領域や伝統的な知識蒸留と異なり,DWTを最適化するための3つの重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-26T13:24:49Z)
Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文参考訳（メタデータ） (2022-11-27T05:14:03Z)
Dual Correction Strategy for Ranking Distillation in Top-N Recommender System [22.37864671297929]
本稿では,知識蒸留のための二重補正戦略について述べる。 DCDは、より効率的な方法で、教師モデルから生徒モデルにランキング情報を転送する。実験の結果,提案手法は最先端のベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2021-09-08T07:00:45Z)
Knowledge Distillation as Semiparametric Inference [44.572422527672416]
モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。この2段階の知識蒸留プロセスは、しばしばラベル付きデータで直接学生を訓練するよりも高い精度をもたらす。対象とする最適学生モデルを用いた半パラメトリック推定問題として知識蒸留を行い,未知ベイズ級確率を迷惑として,教師確率をプラグイン迷惑推定として用いた。
論文参考訳（メタデータ） (2021-04-20T03:00:45Z)
DE-RRD: A Knowledge Distillation Framework for Recommender System [16.62204445256007]
DE-RRDと呼ばれるレコメンダーシステムのためのナレッジ蒸留フレームワークを提案する。これにより,教師モデルにエンコードされた潜在知識や教師の予測から学習モデルを学ぶことができる。実験の結果,DE-RRDは最先端の競争相手よりも優れており,より高速な推論時間で教師モデルに匹敵する,あるいはさらに優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2020-12-08T11:09:22Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。