論文の概要: QEKD: Query-Efficient and Data-Free Knowledge Distillation from
Black-box Models
- arxiv url: http://arxiv.org/abs/2205.11158v1
- Date: Mon, 23 May 2022 09:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:23:09.112071
- Title: QEKD: Query-Efficient and Data-Free Knowledge Distillation from
Black-box Models
- Title(参考訳): QEKD:ブラックボックスモデルによるクエリ効率とデータフリー知識蒸留
- Authors: Jie Zhang, Chen Chen, Jiahua Dong, Ruoxi Jia, Lingjuan Lyu
- Abstract要約: 本稿では,QEKD (Query Efficient Knowledge Distillation) という新しい手法を提案する。
QEKDは、ブラックボックスモデルAPIからクエリ効率よく学習し、本物のデータなしで良い生徒を訓練することを目指している。
詳しくは、QEKDは学生モデルをデータ生成とモデルの蒸留の2段階で訓練する。
- 参考スコア(独自算出の注目度): 31.050127571049188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is a typical method for training a lightweight
student model with the help of a well-trained teacher model. However, most KD
methods require access to either the teacher's training dataset or model
parameter, which is unrealistic. To tackle this problem, recent works study KD
under data-free and black-box settings. Nevertheless, these works require a
large number of queries to the teacher model, which involves significant
monetary and computational costs. To this end, we propose a novel method called
Query Efficient Knowledge Distillation (QEKD), which aims to query-efficiently
learn from black-box model APIs to train a good student without any real data.
In detail, QEKD trains the student model in two stages: data generation and
model distillation. Note that QEKD does not require any query in the data
generation stage and queries the teacher only once for each sample in the
distillation stage. Extensive experiments on various real-world datasets show
the effectiveness of the proposed QEKD. For instance, QEKD can improve the
performance of the best baseline method (DFME) by 5.83 on CIFAR10 dataset with
only 0.02x the query budget of DFME.
- Abstract(参考訳): 知識蒸留(KD)は、訓練された教師モデルの助けを借りて、軽量の学生モデルを訓練する典型的な方法である。
しかしながら、ほとんどのKDメソッドは教師のトレーニングデータセットまたはモデルパラメータへのアクセスを必要とする。
この問題に対処するため、最近の研究はデータフリーおよびブラックボックス設定下でKDを研究する。
それでもこれらの研究には、かなりの金銭と計算コストを伴う教師モデルに対する大量の問い合わせが必要である。
そこで本研究では,ブラックボックスモデルAPIからクエリ効率よく学習し,実データなしでよい生徒を訓練することを目的とした,QEKD(Query Efficient Knowledge Distillation)という新しい手法を提案する。
詳しくは、QEKDは学生モデルをデータ生成とモデルの蒸留の2段階で訓練する。
qekdはデータ生成段階において問合せを一切必要とせず、蒸留段階の各サンプルに対して一度だけ教師に問合せを行う。
様々な実世界のデータセットに対する大規模な実験は、提案したQEKDの有効性を示している。
例えば、QEKDは、DFMEのクエリ予算の0.02倍しか持たないCIFAR10データセット上で、ベストベースライン法(DFME)の性能を5.83倍に向上させることができる。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。
我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。
KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文 参考訳(メタデータ) (2024-10-15T07:51:00Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Customizing Synthetic Data for Data-Free Student Learning [6.8080936803807734]
DFKDは、オリジナルトレーニングデータなしで軽量な学生モデルを得ることを目指している。
生徒モデルをより効果的に訓練するために、合成データを現在の学生学習能力に合わせてカスタマイズする。
本稿では,データ自由学習(CSD)のための合成データのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-07-10T13:17:29Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Two Independent Teachers are Better Role Model [7.001845833295753]
我々は3D-DenseUNetと呼ばれる新しいディープラーニングモデルを提案する。
ダウンサンプリングにおけるグローバルアグリゲーションブロックとして機能し、空間情報損失の問題を解決する。
また,ラベル予測の代わりにモデル重みを要約した「2つの独立教師」という手法を提案する。
論文 参考訳(メタデータ) (2023-06-09T08:22:41Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。