論文の概要: Black-box Few-shot Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2207.12106v1
- Date: Mon, 25 Jul 2022 12:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:12:55.883530
- Title: Black-box Few-shot Knowledge Distillation
- Title(参考訳): ブラックボックス・マイノリティ蒸留
- Authors: Dang Nguyen, Sunil Gupta, Kien Do, Svetha Venkatesh
- Abstract要約: 知識蒸留 (KD) は、大きな「教師」ネットワークからより小さな「学生」ネットワークへ知識を伝達する効率的な手法である。
そこで本研究では,未ラベルのトレーニングサンプルとブラックボックスの教師を用いて,学生を訓練するためのブラックボックス数ショットKD手法を提案する。
我々は、画像分類タスクにおいて、最近のSOTA/ゼロショットKD法よりも大幅に優れていることを示すため、広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 55.27881513982002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is an efficient approach to transfer the
knowledge from a large "teacher" network to a smaller "student" network.
Traditional KD methods require lots of labeled training samples and a white-box
teacher (parameters are accessible) to train a good student. However, these
resources are not always available in real-world applications. The distillation
process often happens at an external party side where we do not have access to
much data, and the teacher does not disclose its parameters due to security and
privacy concerns. To overcome these challenges, we propose a black-box few-shot
KD method to train the student with few unlabeled training samples and a
black-box teacher. Our main idea is to expand the training set by generating a
diverse set of out-of-distribution synthetic images using MixUp and a
conditional variational auto-encoder. These synthetic images along with their
labels obtained from the teacher are used to train the student. We conduct
extensive experiments to show that our method significantly outperforms recent
SOTA few/zero-shot KD methods on image classification tasks. The code and
models are available at: https://github.com/nphdang/FS-BBT
- Abstract(参考訳): 知識蒸留 (KD) は、大きな「教師」ネットワークからより小さな「学生」ネットワークへ知識を伝達する効率的な手法である。
従来のKD手法では、良き学生を訓練するために多くのラベル付きトレーニングサンプルとホワイトボックスの教師(パラメーターが利用できる)が必要である。
しかし、これらのリソースは現実世界のアプリケーションでは必ずしも利用できない。
蒸留プロセスは、多くのデータにアクセスできない外部の側で行われることが多く、教師はセキュリティやプライバシの懸念からパラメータを公開していない。
これらの課題を克服するために、未ラベルのトレーニングサンプルとブラックボックス教師の少ない学生を訓練するためのブラックボックス数ショットKD手法を提案する。
私たちの主なアイデアは、mixupと条件付き変分オートエンコーダを使用して、多様な分散合成画像を生成することで、トレーニングセットを拡大することです。
これらの合成画像と教師から得られたラベルは、生徒を訓練するために使用される。
画像分類タスクにおいて,最近の sota 数/ゼロショット kd 法を有意に上回っていることを示すために,広範な実験を行った。
コードとモデルは、 https://github.com/nphdang/FS-BBT
関連論文リスト
- Data-Free Knowledge Distillation Using Adversarially Perturbed OpenGL
Shader Images [5.439020425819001]
知識蒸留(KD)は、モデル圧縮の一般的かつ効果的な方法である。
データフリー」なKDは、データが提供されていない場合のKDの実行シナリオに焦点を当てた、研究トピックとして発展しつつある。
非自然な画像と大量のデータ拡張と敵攻撃を組み合わせた、データフリーなKDに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-20T19:28:50Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Zero-Shot Knowledge Distillation from a Decision-Based Black-Box Model [8.87104231451079]
知識蒸留は、ディープニューラルネットワークアクセラレーションのアプローチとして成功している。
伝統的に、KDは通常、伝達された知識を得るために、トレーニングサンプルとホワイトボックスの教師のパラメータへのアクセスに依存している。
本稿では,意思決定に基づくブラックボックス(DB3)知識蒸留の概念を提案する。
論文 参考訳(メタデータ) (2021-06-07T02:46:31Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。