論文の概要: Zero-Shot Knowledge Distillation from a Decision-Based Black-Box Model
- arxiv url: http://arxiv.org/abs/2106.03310v1
- Date: Mon, 7 Jun 2021 02:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 14:44:35.593122
- Title: Zero-Shot Knowledge Distillation from a Decision-Based Black-Box Model
- Title(参考訳): 決定に基づくブラックボックスモデルによるゼロショット知識蒸留
- Authors: Zi Wang
- Abstract要約: 知識蒸留は、ディープニューラルネットワークアクセラレーションのアプローチとして成功している。
伝統的に、KDは通常、伝達された知識を得るために、トレーニングサンプルとホワイトボックスの教師のパラメータへのアクセスに依存している。
本稿では,意思決定に基づくブラックボックス(DB3)知識蒸留の概念を提案する。
- 参考スコア(独自算出の注目度): 8.87104231451079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a successful approach for deep neural network
acceleration, with which a compact network (student) is trained by mimicking
the softmax output of a pre-trained high-capacity network (teacher). In
tradition, KD usually relies on access to the training samples and the
parameters of the white-box teacher to acquire the transferred knowledge.
However, these prerequisites are not always realistic due to storage costs or
privacy issues in real-world applications. Here we propose the concept of
decision-based black-box (DB3) knowledge distillation, with which the student
is trained by distilling the knowledge from a black-box teacher (parameters are
not accessible) that only returns classes rather than softmax outputs. We start
with the scenario when the training set is accessible. We represent a sample's
robustness against other classes by computing its distances to the teacher's
decision boundaries and use it to construct the soft label for each training
sample. After that, the student can be trained via standard KD. We then extend
this approach to a more challenging scenario in which even accessing the
training data is not feasible. We propose to generate pseudo samples
distinguished by the teacher's decision boundaries to the largest extent and
construct soft labels for them, which are used as the transfer set. We evaluate
our approaches on various benchmark networks and datasets and experiment
results demonstrate their effectiveness. Codes are available at:
https://github.com/zwang84/zsdb3kd.
- Abstract(参考訳): 知識蒸留(kd)は、事前訓練された高容量ネットワーク(教師)のソフトマックス出力を模倣してコンパクトネットワーク(学生)を訓練するディープニューラルネットワークの高速化に成功している。
伝統的に、KDは通常、伝達された知識を得るためにトレーニングサンプルとホワイトボックスの教師のパラメータへのアクセスに依存する。
しかし、これらの前提条件は、現実のアプリケーションにおけるストレージコストやプライバシーの問題のために、必ずしも現実的ではない。
ここでは,意思決定に基づくブラックボックス(db3)知識蒸留の概念を提案し,生徒はソフトマックス出力ではなくクラスのみを返すブラックボックス教師(パラメータはアクセスできない)の知識を蒸留して学習する。
トレーニングセットにアクセス可能なシナリオから始めます。
我々は,教師の判断境界までの距離を計算し,学習サンプルごとにソフトラベルを構築することで,他のクラスに対するサンプルの堅牢性を表現している。
その後、生徒は標準kdで訓練することができる。
このアプローチを,トレーニングデータへのアクセスさえ実現不可能な,より困難なシナリオにまで拡張するのです。
そこで本研究では,教師の判断境界を最大値とする疑似サンプルを生成し,伝達集合として使用するソフトラベルを構築することを提案する。
各種ベンチマークネットワークとデータセットに対するアプローチを評価し,その効果を実証した。
コードはhttps://github.com/zwang84/zsdb3kd。
関連論文リスト
- Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - Black-box Few-shot Knowledge Distillation [55.27881513982002]
知識蒸留 (KD) は、大きな「教師」ネットワークからより小さな「学生」ネットワークへ知識を伝達する効率的な手法である。
そこで本研究では,未ラベルのトレーニングサンプルとブラックボックスの教師を用いて,学生を訓練するためのブラックボックス数ショットKD手法を提案する。
我々は、画像分類タスクにおいて、最近のSOTA/ゼロショットKD法よりも大幅に優れていることを示すため、広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-07-25T12:16:53Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data [56.29595334715237]
知識蒸留(KD)は,対象領域における教師の行動を模倣する,コンパクトな学生モデルを構築することを目的としている。
私たちは、astextitMosaicKDと呼ばれる便利だが驚くほど効果的なアプローチを導入しました。
モザイクKDでは、ジェネレータ、識別器、学生ネットワークを対角的に総合的に訓練する4人プレイのmin-maxゲームによってこれを達成している。
論文 参考訳(メタデータ) (2021-10-27T13:01:10Z) - Beyond Classification: Knowledge Distillation using Multi-Object
Impressions [17.214664783818687]
知識蒸留(KD)は、複雑なネットワーク(Teacher)からより小さなネットワーク(Student)へ知識を伝達するために、訓練データを転送セットとして利用する。
いくつかの研究は、データプライバシや感度に関する懸念から、トレーニングデータが利用できない多くのシナリオを特定している。
トレーニングデータとその統計に関する知識がゼロのオブジェクト検出のためのKD」という、はるかに難しい問題を初めて解決しました。
論文 参考訳(メタデータ) (2021-10-27T06:59:27Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Towards Zero-Shot Knowledge Distillation for Natural Language Processing [9.223848704267088]
知識蒸留(KD)は、さまざまなディープラーニングベースの自然言語処理(NLP)ソリューションのモデル圧縮に使用される一般的なアルゴリズムです。
通常の表現では、kdは生徒ネットワークへの知識伝達のために教師のトレーニングデータにアクセスする必要がある。
私たちは、NLPのためのゼロショット知識蒸留の最初の作品である私たちの知識のベストを提示します。そこでは、学生はタスク固有のデータなしではるかに大きな教師から学びます。
論文 参考訳(メタデータ) (2020-12-31T08:16:29Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。