論文の概要: Dynamic Temperature Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2404.12711v1
- Date: Fri, 19 Apr 2024 08:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:45:58.770751
- Title: Dynamic Temperature Knowledge Distillation
- Title(参考訳): 動的温度知識蒸留
- Authors: Yukang Wei, Yu Bai,
- Abstract要約: 知識蒸留(KD)領域におけるラベルソフトネスの調整における温度の役割
従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多い。
本研究では,教師モデルと学生モデルの両方に対して,動的かつ協調的な温度制御を同時に導入する動的温度知識蒸留(DTKD)を提案する。
- 参考スコア(独自算出の注目度): 9.6046915661065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temperature plays a pivotal role in moderating label softness in the realm of knowledge distillation (KD). Traditional approaches often employ a static temperature throughout the KD process, which fails to address the nuanced complexities of samples with varying levels of difficulty and overlooks the distinct capabilities of different teacher-student pairings. This leads to a less-than-ideal transfer of knowledge. To improve the process of knowledge propagation, we proposed Dynamic Temperature Knowledge Distillation (DTKD) which introduces a dynamic, cooperative temperature control for both teacher and student models simultaneously within each training iterafion. In particular, we proposed "\textbf{sharpness}" as a metric to quantify the smoothness of a model's output distribution. By minimizing the sharpness difference between the teacher and the student, we can derive sample-specific temperatures for them respectively. Extensive experiments on CIFAR-100 and ImageNet-2012 demonstrate that DTKD performs comparably to leading KD techniques, with added robustness in Target Class KD and None-target Class KD scenarios.The code is available at https://github.com/JinYu1998/DTKD.
- Abstract(参考訳): 温度は知識蒸留(KD)の領域におけるラベルの柔らかさの調整において重要な役割を担っている。
従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多く、様々な難易度を持つサンプルの微妙な複雑さに対処できず、異なる教師と学生のペアリングの異なる能力を見落としている。
このことは、知識の理想的移動に繋がる。
知識伝播のプロセスを改善するために,教師モデルと学生モデルの両方に動的かつ協調的な温度制御を導入する動的温度知識蒸留法(DTKD)を提案した。
特に、モデルの出力分布の滑らかさを定量化するための計量として「\textbf{sharpness}」を提案した。
教師と生徒のシャープネス差を最小化することにより,それぞれに試料比温度を導出することができる。
CIFAR-100とImageNet-2012の大規模な実験では、DTKDは主要なKD技術と互換性があり、ターゲットクラスKDとNone-targetクラスKDシナリオにロバスト性が追加されている。コードはhttps://github.com/JinYu1998/DTKDで公開されている。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Instance Temperature Knowledge Distillation [15.095465128404161]
既存の学習方法は、学生ネットワークが様々な学習困難に適応できるように、動的に温度調整を行う。
本稿では,温度調整を逐次意思決定タスクとして定式化し,強化学習に基づく手法を提案する。
我々のフレームワークは、様々なKDメソッドに簡単に挿入できるプラグイン・アンド・プレイ技術として機能する。
論文 参考訳(メタデータ) (2024-06-27T14:00:05Z) - Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Swing Distillation: A Privacy-Preserving Knowledge Distillation
Framework [38.68736962054861]
本研究では,教師モデルの個人情報が学生モデルに流れるのを効果的に保護できる新しい知識蒸留法を提案する。
複数のデータセットとタスクの実験により、提案されたスイング蒸留は、プライバシー漏洩のリスクを著しく低減できる(カナリア曝露の80%以上)ことが示された。
論文 参考訳(メタデータ) (2022-12-16T08:57:18Z) - Curriculum Temperature for Knowledge Distillation [30.94721463833605]
知識蒸留のためのカリキュラム温度(CTKD)と呼ばれるカリキュラムベースの手法を提案する。
CTKDは、動的で学習可能な温度で、学生の学習キャリアにおけるタスクの難易度を制御する。
簡便なプラグイン技術として、CTKDは既存の知識蒸留フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2022-11-29T14:10:35Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。