Fugu-MT 論文翻訳(概要): Knowledge Distillation with Deep Supervision

論文の概要: Knowledge Distillation with Deep Supervision

arxiv url: http://arxiv.org/abs/2202.07846v2
Date: Thu, 25 May 2023 14:07:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-27 00:36:53.414887
Title: Knowledge Distillation with Deep Supervision
Title（参考訳）: 深い監督による知識蒸留
Authors: Shiya Luo, Defang Chen, Can Wang
Abstract要約: 本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。 DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
参考スコア（独自算出の注目度）: 6.8080936803807734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge distillation aims to enhance the performance of a lightweight student model by exploiting the knowledge from a pre-trained cumbersome teacher model. However, in the traditional knowledge distillation, teacher predictions are only used to provide the supervisory signal for the last layer of the student model, which may result in those shallow student layers lacking accurate training guidance in the layer-by-layer back propagation and thus hinders effective knowledge transfer. To address this issue, we propose Deeply-Supervised Knowledge Distillation (DSKD), which fully utilizes class predictions and feature maps of the teacher model to supervise the training of shallow student layers. A loss-based weight allocation strategy is developed in DSKD to adaptively balance the learning process of each shallow layer, so as to further improve the student performance. Extensive experiments on CIFAR-100 and TinyImageNet with various teacher-student models show significantly performance, confirming the effectiveness of our proposed method. Code is available at: $\href{https://github.com/luoshiya/DSKD}{https://github.com/luoshiya/DSKD}$
Abstract（参考訳）: 知識蒸留は,教師モデルの知識を生かして,軽量な学生モデルの性能を高めることを目的としている。しかし, 従来の知識蒸留では, 教師の予測は, 生徒モデルの最終層に対する監督信号を提供するためにのみ用いられており, 浅い生徒層では, 層別バック伝播の正確な訓練指導が得られず, 効果的な知識伝達が阻害される可能性がある。この問題に対処するために,教師モデルのクラス予測と特徴マップをフル活用して,浅層学習者のトレーニングを監督する,Deeply-Supervised Knowledge Distillation (DSKD)を提案する。 DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。 CIFAR-100とTinyImageNetの多種多様な教師学生モデルによる大規模な実験により,提案手法の有効性が確認された。コードは、$\href{https://github.com/luoshiya/dskd}{https://github.com/luoshiya/dskd}$で入手できる。

関連論文リスト

Logit-Based Losses Limit the Effectiveness of Feature Knowledge Distillation [13.970649308150895]
知識蒸留(KD)法は、パラメータ重大教師モデルの知識を軽量の学生モデルに伝達することができる。特徴に基づく損失のみを用いて,学生の背骨を訓練するための特徴的KDフレームワークを提案する。我々は,KD法が最先端性能を実現し,標準手法に比べて最大15%の精度向上を実現していることを示す。
論文参考訳（メタデータ） (2025-11-18T23:50:31Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。 ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。 8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文参考訳（メタデータ） (2024-02-19T07:01:10Z)
Data Upcycling Knowledge Distillation for Image Super-Resolution [25.753554952896096]
知識蒸留(KD)は、教師モデルから生徒モデルへのタスク関連知識の伝達によって、ディープニューラルネットワークを圧縮する。本稿では,教師モデルの知識を学習者モデルに伝達するために,学習データから得られたドメイン内データを用いて,データリサイクル知識蒸留(DuKD)を提案する。
論文参考訳（メタデータ） (2023-09-25T14:13:26Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)
InDistill: Information flow-preserving knowledge distillation for model compression [20.88709060450944]
本稿では,知識蒸留(KD)の有効性のウォームアップ段階として機能するInDistillを紹介する。 InDistillは、重厚な教師から軽量な学生に重要な情報の流れの経路を移すことに重点を置いている。提案手法は, CIFAR-10, CIFAR-100, ImageNetデータセット上で, 教師/学生の多様なアーキテクチャを用いて広範に評価されている。
論文参考訳（メタデータ） (2022-05-20T07:40:09Z)
Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。 DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文参考訳（メタデータ） (2022-01-27T04:38:01Z)
Semi-Online Knowledge Distillation [2.373824287636486]
従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
論文参考訳（メタデータ） (2021-11-23T09:44:58Z)
Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。 IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文参考訳（メタデータ） (2021-09-10T03:01:01Z)
Boosting Light-Weight Depth Estimation Via Knowledge Distillation [21.93879961636064]
本稿では,最小限の計算資源を用いて深度マップを正確に推定できる軽量ネットワークを提案する。モデル複雑性を最大に低減するコンパクトなモデルアーキテクチャを設計することで、これを実現する。本手法は, パラメータの1%しか使用せず, 最先端手法に匹敵する性能を実現する。
論文参考訳（メタデータ） (2021-05-13T08:42:42Z)
Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文参考訳（メタデータ） (2021-04-14T23:45:03Z)
Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文参考訳（メタデータ） (2020-05-02T06:56:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。