論文の概要: Weight Averaging Improves Knowledge Distillation under Domain Shift
- arxiv url: http://arxiv.org/abs/2309.11446v1
- Date: Wed, 20 Sep 2023 16:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 12:26:18.356761
- Title: Weight Averaging Improves Knowledge Distillation under Domain Shift
- Title(参考訳): 重み平均化はドメインシフト下での知識蒸留を改善する
- Authors: Valeriy Berezovskiy, Nikita Morozov
- Abstract要約: 我々は,知識蒸留と領域一般化の研究分野のブリッジ化に向けて一歩前進する。
本研究では,SWAD や SMA などの領域一般化文学において提案される平均化技術により,ドメインシフトによる知識蒸留の性能が向上することを示す。
重度平均知識蒸留(WAKD)と命名した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is a powerful model compression technique broadly
used in practical deep learning applications. It is focused on training a small
student network to mimic a larger teacher network. While it is widely known
that KD can offer an improvement to student generalization in i.i.d setting,
its performance under domain shift, i.e. the performance of student networks on
data from domains unseen during training, has received little attention in the
literature. In this paper we make a step towards bridging the research fields
of knowledge distillation and domain generalization. We show that weight
averaging techniques proposed in domain generalization literature, such as SWAD
and SMA, also improve the performance of knowledge distillation under domain
shift. In addition, we propose a simplistic weight averaging strategy that does
not require evaluation on validation data during training and show that it
performs on par with SWAD and SMA when applied to KD. We name our final
distillation approach Weight-Averaged Knowledge Distillation (WAKD).
- Abstract(参考訳): 知識蒸留(KD)は、実用的なディープラーニングアプリケーションで広く使われている強力なモデル圧縮技術である。
小さな学生ネットワークを訓練し、より大きな教師ネットワークを模倣することに注力している。
kdは、i.i.d設定において学生の一般化を改善できることは広く知られているが、ドメインシフト下でのパフォーマンス、すなわち、訓練中に見えないドメインのデータによる学生ネットワークのパフォーマンスは、文学においてあまり注目されていない。
本稿では,知識蒸留とドメイン一般化の研究分野を橋渡しするための一歩を踏み出す。
本研究では,SWAD や SMA などの領域一般化文学において提案される平均化技術により,ドメインシフトによる知識蒸留の性能が向上することを示す。
また,KDに適用した場合のSWADおよびSMAと同等の性能を示すため,トレーニング中の検証データの評価を必要としない簡易なウェイト平均化戦略を提案する。
我々は,最終蒸留法であるWeight-Averaged Knowledge Distillation (WAKD) を命名した。
関連論文リスト
- HARD: Hard Augmentations for Robust Distillation [3.8397175894277225]
本稿では,ロバスト蒸留法(HARD)の高度化による知識蒸留の改善を提案する。
HARDは、教師と生徒が同意しない合成データポイントを生成する。
学習の強化により,ドメイン内およびドメイン外評価におけるKD性能が大幅に向上することが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:38:44Z) - Hint-dynamic Knowledge Distillation [30.40008256306688]
HKDと呼ばれるHint-dynamic Knowledge Distillationは、動的スキームで教師のヒントから知識を抽出する。
メタウェイトネットワークを導入し、知識ヒントに関するインスタンス単位の重み係数を生成する。
CIFAR-100とTiny-ImageNetの標準ベンチマークの実験では、提案したHKDが知識蒸留タスクの効果を高めることが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:03:53Z) - On effects of Knowledge Distillation on Transfer Learning [0.0]
本稿では,知識蒸留と伝達学習を組み合わせたTL+KDという機械学習アーキテクチャを提案する。
我々は,教師ネットワークの指導と知識を微調整中に利用することにより,学生ネットワークを改良し,精度などの検証性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-10-18T08:11:52Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge
Distillation [30.56389761245621]
知識蒸留(KD)は、大規模事前学習言語モデルを圧縮するための効率的なフレームワークである。
近年, コントラスト学習, 中間層蒸留, データ拡張, アドミラルトレーニングを活用することで, KDの改善を目指す研究が急増している。
CILDAと呼ばれる知識蒸留に適した学習ベースデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-04-15T23:16:37Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data [56.29595334715237]
知識蒸留(KD)は,対象領域における教師の行動を模倣する,コンパクトな学生モデルを構築することを目的としている。
私たちは、astextitMosaicKDと呼ばれる便利だが驚くほど効果的なアプローチを導入しました。
モザイクKDでは、ジェネレータ、識別器、学生ネットワークを対角的に総合的に訓練する4人プレイのmin-maxゲームによってこれを達成している。
論文 参考訳(メタデータ) (2021-10-27T13:01:10Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。