論文の概要: Improving Diversity in Black-box Few-shot Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2604.25795v1
- Date: Tue, 28 Apr 2026 16:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.938086
- Title: Improving Diversity in Black-box Few-shot Knowledge Distillation
- Title(参考訳): ブラックボックスフルショット知識蒸留における多様性の向上
- Authors: Tri-Nhan Vo, Dang Nguyen, Kien Do, Sunil Gupta,
- Abstract要約: 本稿では,生成的対向ネットワークのための新しいトレーニング手法を提案する。
本研究では,教師の指導下で高信頼画像を選択し,それを対人学習に導入する。
我々は、7つの画像データセット上で、他の数ショットKD手法の最先端結果を得る。
- 参考スコア(独自算出の注目度): 21.030238888828915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a well-known technique to effectively compress a large network (teacher) to a smaller network (student) with little sacrifice in performance. However, most KD methods require a large training set and internal access to the teacher, which are rarely available due to various restrictions. These challenges have originated a more practical setting known as black-box few-shot KD, where the student is trained with few images and a black-box teacher. Recent approaches typically generate additional synthetic images but lack an active strategy to promote their diversity, a crucial factor for student learning. To address these problems, we propose a novel training scheme for generative adversarial networks, where we adaptively select high-confidence images under the teacher's supervision and introduce them to the adversarial learning on-the-fly. Our approach helps expand and improve the diversity of the distillation set, significantly boosting student accuracy. Through extensive experiments, we achieve state-of-the-art results among other few-shot KD methods on seven image datasets. The code is available at https://github.com/votrinhan88/divbfkd.
- Abstract(参考訳): 知識蒸留(KD)は、大きなネットワーク(教師)を小さなネットワーク(学生)に効果的に圧縮し、性能を犠牲にすることの少ない技術としてよく知られている。
しかしながら、ほとんどのKDメソッドは、様々な制約のためにほとんど利用できない、大きなトレーニングセットと教師の内部アクセスを必要とする。
これらの課題はより実践的なKDブラックボックス(Black-box few-shot)と呼ばれる設定に端を発し、学生はわずかな画像とブラックボックスの教師で訓練される。
最近のアプローチでは、通常、追加の合成画像を生成するが、学生の学習にとって重要な要素である多様性を促進するための積極的な戦略が欠如している。
そこで本研究では,教師の監督下で高信頼度画像を適応的に選択し,対人学習に導入する,生成的対人ネットワークのための新たなトレーニング手法を提案する。
提案手法は蒸留セットの多様性の拡大と改善に役立ち,学生の精度を大幅に向上させる。
広範にわたる実験により、7つの画像データセット上で、他の数発のKD手法の最先端結果が得られる。
コードはhttps://github.com/votrinhan88/divbfkd.comで公開されている。
関連論文リスト
- Discriminative and Consistent Representation Distillation [6.24302896438145]
識別・一貫性蒸留(DCD)
DCDは、教師と生徒の表現の分布の相違を最小限に抑えるために、一貫性の規則化とともに対照的な損失を生んでいる。
本手法では,これらの相補的目的のバランスをとるために,訓練中に適応する学習可能な温度パラメータとバイアスパラメータを導入する。
論文 参考訳(メタデータ) (2024-07-16T14:53:35Z) - MTKD: Multi-Teacher Knowledge Distillation for Image Super-Resolution [6.983043882738687]
画像超解像のためのMTKD(Multi-Teacher Knowledge Distillation)フレームワークを提案する。
複数の教師の利点を生かし、これらの教師モデルのアウトプットを統合して強化する。
画像超解像のための5つの一般的なKD法と比較することにより,提案手法の有効性を十分に評価する。
論文 参考訳(メタデータ) (2024-04-15T08:32:41Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Black-box Few-shot Knowledge Distillation [55.27881513982002]
知識蒸留 (KD) は、大きな「教師」ネットワークからより小さな「学生」ネットワークへ知識を伝達する効率的な手法である。
そこで本研究では,未ラベルのトレーニングサンプルとブラックボックスの教師を用いて,学生を訓練するためのブラックボックス数ショットKD手法を提案する。
我々は、画像分類タスクにおいて、最近のSOTA/ゼロショットKD法よりも大幅に優れていることを示すため、広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-07-25T12:16:53Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。