論文の概要: Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression
- arxiv url: http://arxiv.org/abs/2104.03164v1
- Date: Wed, 7 Apr 2021 14:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 16:19:12.481575
- Title: Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression
- Title(参考訳): 画像分類と回帰のためのcGAN生成サンプルによる知識の蒸留と伝達
- Authors: Xin Ding and Z. Jane Wang and Zuheng Xu and Yongwei Wang and William
J. Welch
- Abstract要約: 条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
- 参考スコア(独自算出の注目度): 17.12028267150745
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Knowledge distillation (KD) has been actively studied for image
classification tasks in deep learning, aiming to improve the performance of a
student model based on the knowledge from a teacher model. However, there have
been very few efforts for applying KD in image regression with a scalar
response, and there is no KD method applicable to both tasks. Moreover,
existing KD methods often require a practitioner to carefully choose or adjust
the teacher and student architectures, making these methods less scalable in
practice. Furthermore, although KD is usually conducted in scenarios with
limited labeled data, very few techniques are developed to alleviate such data
insufficiency. To solve the above problems in an all-in-one manner, we propose
in this paper a unified KD framework based on conditional generative
adversarial networks (cGANs), termed cGAN-KD. Fundamentally different from
existing KD methods, cGAN-KD distills and transfers knowledge from a teacher
model to a student model via cGAN-generated samples. This unique mechanism
makes cGAN-KD suitable for both classification and regression tasks, compatible
with other KD methods, and insensitive to the teacher and student
architectures. Also, benefiting from the recent advances in cGAN methodology
and our specially designed subsampling and filtering procedures, cGAN-KD also
performs well when labeled data are scarce. An error bound of a student model
trained in the cGAN-KD framework is derived in this work, which theoretically
explains why cGAN-KD takes effect and guides the implementation of cGAN-KD in
practice. Extensive experiments on CIFAR-10 and Tiny-ImageNet show that we can
incorporate state-of-the-art KD methods into the cGAN-KD framework to reach a
new state of the art. Also, experiments on RC-49 and UTKFace demonstrate the
effectiveness of cGAN-KD in image regression tasks, where existing KD methods
are inapplicable.
- Abstract(参考訳): 知識蒸留(KD)は,教師モデルからの知識に基づく学生モデルの性能向上を目的として,深層学習における画像分類タスクとして積極的に研究されている。
しかしながら、スカラー応答を伴う画像回帰にkdを適用する努力はほとんどなく、両方のタスクに適用できるkdメソッドは存在しない。
さらに、既存のKD手法では、実践者が教師や学生のアーキテクチャを慎重に選択または調整する必要があることが多く、実際はスケーラビリティが低下する。
さらに、KDは通常、ラベル付きデータに制限のあるシナリオで実行されるが、そのようなデータ不足を緩和する技術はほとんど開発されていない。
そこで本稿では,条件付き生成逆ネットワーク(cGAN)をベースとした統一KDフレームワーク,cGAN-KDを提案する。
既存のKD法とは大きく異なり、cGAN-KDは教師モデルからcGAN生成サンプルを介して生徒モデルに知識を蒸留し、伝達する。
このユニークなメカニズムにより、cGAN-KDは分類と回帰の両方に適しており、他のKDメソッドと互換性があり、教師や学生のアーキテクチャに無関心である。
また、近年のcGAN方法論の進歩や、特別に設計されたサブサンプリングとフィルタリングの手法により、ラベル付きデータが不足している場合には、cGAN-KDも良好に機能する。
cGAN-KDフレームワークで訓練された学生モデルの誤差境界は、cGAN-KDが実際にcGAN-KDの実装を導く理由を理論的に説明するために導かれる。
CIFAR-10とTiny-ImageNetの大規模な実験により、最先端のKDメソッドをcGAN-KDフレームワークに組み込むことで、新たな最先端技術に到達できることが示されている。
また、RC-49とUTKFaceの実験では、既存のKD手法が適用できない画像回帰タスクにおいて、cGAN-KDの有効性が示されている。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free
Continual Learning [14.379472108242235]
正規化戦略として知識蒸留(KD)を併用した模範自由クラスインクリメンタルラーニング(CIL)について検討した。
KDベースの手法はCILでうまく使われているが、以前のタスクからトレーニングデータの例にアクセスできることなくモデルを規則化するのに苦労することが多い。
近年の試験時間適応法に触発されて,インクリメンタルトレーニング中に教師と主要モデルを同時に更新する手法であるTeacher Adaptation (TA)を紹介した。
論文 参考訳(メタデータ) (2023-08-18T13:22:59Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Confidence Conditioned Knowledge Distillation [8.09591217280048]
教師モデルから学生モデルに知識を伝達するための信頼性条件付き知識蒸留(CCKD)方式を提案する。
CCKDは、教師モデルに割り当てられた信頼度を正しいクラスに利用して、サンプル固有の損失関数とターゲットを考案することで、これらの問題に対処する。
いくつかのベンチマークデータセットに対する実証的な評価は、CCKD法が他の最先端手法と同等以上の一般化性能を達成していることを示している。
論文 参考訳(メタデータ) (2021-07-06T00:33:25Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Modeling Teacher-Student Techniques in Deep Neural Networks for
Knowledge Distillation [9.561123408923489]
知識蒸留(KD)は、学習中の構造物の知識を別のものに移す新しい方法である。
本稿では,KDの一般モデルを構築するために,KDの範囲に関する様々な研究を調査し,分析する。
KDにおける異なるアプローチの利点とデメリットをよりよく理解し、KDの新しい戦略を開発することが可能である。
論文 参考訳(メタデータ) (2019-12-31T05:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。