論文の概要: IDEAL: Query-Efficient Data-Free Learning from Black-box Models
- arxiv url: http://arxiv.org/abs/2205.11158v2
- Date: Thu, 17 Aug 2023 08:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 01:37:38.134026
- Title: IDEAL: Query-Efficient Data-Free Learning from Black-box Models
- Title(参考訳): IDEAL:ブラックボックスモデルからのクエリ効率の良いデータ自由学習
- Authors: Jie Zhang, Chen Chen, Lingjuan Lyu
- Abstract要約: 知識蒸留(KD: Knowledge Distillation)は、教師モデルの助けを借りて、軽量の学生モデルを訓練する典型的な方法である。
近年,データフリーおよびブラックボックス設定下でのKDの研究が進められている。
BLAck-box modeLs (I) を用いた emph-effIcient Data-free lEarning という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 46.10914913463816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a typical method for training a lightweight
student model with the help of a well-trained teacher model. However, most KD
methods require access to either the teacher's training data or model
parameters, which is unrealistic. To tackle this problem, recent works study KD
under data-free and black-box settings. Nevertheless, these works require a
large number of queries to the teacher model, which incurs significant monetary
and computational costs. To address these problems, we propose a novel method
called \emph{query-effIcient Data-free lEarning from blAck-box modeLs} (IDEAL),
which aims to query-efficiently learn from black-box model APIs to train a good
student without any real data. In detail, IDEAL trains the student model in two
stages: data generation and model distillation. Note that IDEAL does not
require any query in the data generation stage and queries the teacher only
once for each sample in the distillation stage. Extensive experiments on
various real-world datasets show the effectiveness of the proposed IDEAL. For
instance, IDEAL can improve the performance of the best baseline method DFME by
5.83% on CIFAR10 dataset with only 0.02x the query budget of DFME.
- Abstract(参考訳): 知識蒸留(KD)は,教師モデルを用いて,軽量な学生モデルを訓練する典型的な方法である。
しかしながら、ほとんどのKDメソッドは教師のトレーニングデータまたはモデルパラメータへのアクセスを必要とする。
この問題に対処するため、最近の研究はデータフリーおよびブラックボックス設定下でKDを研究する。
それにもかかわらず、これらの作業には教師モデルへの大量のクエリが必要であり、かなりの金銭的および計算的コストがかかる。
これらの問題に対処するために,本研究では,ブラックボックスモデルapiからクエリを効率的に学習し,実データ無しで優れた学生を訓練することを目的とした,新しい手法である \emph{query- efficient data-free learning from black-box models} (ideal)を提案する。
詳しくは、IDEALは学生モデルをデータ生成とモデルの蒸留の2段階に分けて訓練する。
イデアルはデータ生成段階においていかなるクエリも必要とせず、蒸留段階の各サンプルに対して一度だけ教師に問い合わせる。
様々な実世界のデータセットに対する大規模な実験は、提案したIDEALの有効性を示している。
例えば、IDEALは、DFMEのクエリ予算の0.02倍で、CIFAR10データセット上でDFMEの最高のベースラインメソッドDFMEのパフォーマンスを5.83%向上させることができる。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。
我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。
KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文 参考訳(メタデータ) (2024-10-15T07:51:00Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Customizing Synthetic Data for Data-Free Student Learning [6.8080936803807734]
DFKDは、オリジナルトレーニングデータなしで軽量な学生モデルを得ることを目指している。
生徒モデルをより効果的に訓練するために、合成データを現在の学生学習能力に合わせてカスタマイズする。
本稿では,データ自由学習(CSD)のための合成データのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-07-10T13:17:29Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Two Independent Teachers are Better Role Model [7.001845833295753]
我々は3D-DenseUNetと呼ばれる新しいディープラーニングモデルを提案する。
ダウンサンプリングにおけるグローバルアグリゲーションブロックとして機能し、空間情報損失の問題を解決する。
また,ラベル予測の代わりにモデル重みを要約した「2つの独立教師」という手法を提案する。
論文 参考訳(メタデータ) (2023-06-09T08:22:41Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。