論文の概要: Respecting Transfer Gap in Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2210.12787v1
- Date: Sun, 23 Oct 2022 17:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:20:31.259753
- Title: Respecting Transfer Gap in Knowledge Distillation
- Title(参考訳): 知識蒸留における転移ギャップの尊重
- Authors: Yulei Niu, Long Chen, Chang Zhou, Hanwang Zhang
- Abstract要約: 知識蒸留(KD)は、教師モデルの振る舞いを学生モデルに伝達する過程である。
従来のKDメソッドは、人間のドメインとマシンドメインの両方で収集されたデータが、独立かつ同一の分散である、という前提を持っている。
Inverse Probability Weighting Distillation (IPWD) を提案する。
- 参考スコア(独自算出の注目度): 74.38776465736471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is essentially a process of transferring a
teacher model's behavior, e.g., network response, to a student model. The
network response serves as additional supervision to formulate the machine
domain, which uses the data collected from the human domain as a transfer set.
Traditional KD methods hold an underlying assumption that the data collected in
both human domain and machine domain are both independent and identically
distributed (IID). We point out that this naive assumption is unrealistic and
there is indeed a transfer gap between the two domains. Although the gap offers
the student model external knowledge from the machine domain, the imbalanced
teacher knowledge would make us incorrectly estimate how much to transfer from
teacher to student per sample on the non-IID transfer set. To tackle this
challenge, we propose Inverse Probability Weighting Distillation (IPWD) that
estimates the propensity score of a training sample belonging to the machine
domain, and assigns its inverse amount to compensate for under-represented
samples. Experiments on CIFAR-100 and ImageNet demonstrate the effectiveness of
IPWD for both two-stage distillation and one-stage self-distillation.
- Abstract(参考訳): 知識蒸留 (KD) は、基本的には教師モデルの行動(ネットワーク応答など)を学生モデルに転送するプロセスである。
ネットワーク応答は、ヒューマンドメインから収集されたデータを転送セットとして使用するマシンドメインを定式化する追加の監督役を果たす。
従来のkdメソッドは、ヒューマンドメインとマシンドメインの両方で収集されたデータは独立かつ同一分散(iid)であるという前提を持っている。
この非現実的な仮定は非現実的であり、2つの領域の間には確かに移行ギャップがある。
このギャップは、マシンドメインからの学生モデル外部知識を提供するが、不均衡な教師の知識は、非iid転送セットにおけるサンプル毎の教師から生徒への転校金額を誤って見積もる。
この課題に対処するために,機械ドメインに属するトレーニングサンプルの適合度スコアを推定し,その逆量を非表現サンプルの補償に割り当てる逆確率重み付き蒸留(IPWD)を提案する。
CIFAR-100とImageNetの実験は、2段階蒸留と1段階自己蒸留の両方においてIPWDの有効性を示した。
関連論文リスト
- Direct Distillation between Different Domains [97.39470334253163]
異なるドメイン間の直接蒸留(4Ds)と呼ばれる新しいワンステージ手法を提案する。
まず、Fourier変換に基づいて学習可能なアダプタを設計し、ドメイン固有の知識からドメイン不変知識を分離する。
次に、価値あるドメイン不変知識を学生ネットワークに転送するための融合活性化機構を構築する。
論文 参考訳(メタデータ) (2024-01-12T02:48:51Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - Dual-Teacher++: Exploiting Intra-domain and Inter-domain Knowledge with
Reliable Transfer for Cardiac Segmentation [69.09432302497116]
最先端の半教師付きドメイン適応フレームワークである Dual-Teacher++ を提案する。
ソースドメイン(MRなど)からのクロスモダリティ優先度を探索するドメイン間教師モデルと、ラベルのないターゲットドメインの知識を調査するドメイン内教師モデルを含む、新しいデュアル教師モデルを設計する。
このようにして、学生モデルは信頼できる二重ドメイン知識を得て、ターゲットドメインデータのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-01-07T05:17:38Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。