Fugu-MT 論文翻訳(概要): IDEAL: Query-Efficient Data-Free Learning from Black-box Models

論文の概要: IDEAL: Query-Efficient Data-Free Learning from Black-box Models

arxiv url: http://arxiv.org/abs/2205.11158v2
Date: Thu, 17 Aug 2023 08:21:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 01:37:38.134026
Title: IDEAL: Query-Efficient Data-Free Learning from Black-box Models
Title（参考訳）: IDEAL:ブラックボックスモデルからのクエリ効率の良いデータ自由学習
Authors: Jie Zhang, Chen Chen, Lingjuan Lyu
Abstract要約: 知識蒸留(KD: Knowledge Distillation)は、教師モデルの助けを借りて、軽量の学生モデルを訓練する典型的な方法である。近年,データフリーおよびブラックボックス設定下でのKDの研究が進められている。 BLAck-box modeLs (I) を用いた emph-effIcient Data-free lEarning という新しい手法を提案する。
参考スコア（独自算出の注目度）: 46.10914913463816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge Distillation (KD) is a typical method for training a lightweight student model with the help of a well-trained teacher model. However, most KD methods require access to either the teacher's training data or model parameters, which is unrealistic. To tackle this problem, recent works study KD under data-free and black-box settings. Nevertheless, these works require a large number of queries to the teacher model, which incurs significant monetary and computational costs. To address these problems, we propose a novel method called \emph{query-effIcient Data-free lEarning from blAck-box modeLs} (IDEAL), which aims to query-efficiently learn from black-box model APIs to train a good student without any real data. In detail, IDEAL trains the student model in two stages: data generation and model distillation. Note that IDEAL does not require any query in the data generation stage and queries the teacher only once for each sample in the distillation stage. Extensive experiments on various real-world datasets show the effectiveness of the proposed IDEAL. For instance, IDEAL can improve the performance of the best baseline method DFME by 5.83% on CIFAR10 dataset with only 0.02x the query budget of DFME.
Abstract（参考訳）: 知識蒸留(KD)は,教師モデルを用いて,軽量な学生モデルを訓練する典型的な方法である。しかしながら、ほとんどのKDメソッドは教師のトレーニングデータまたはモデルパラメータへのアクセスを必要とする。この問題に対処するため、最近の研究はデータフリーおよびブラックボックス設定下でKDを研究する。それにもかかわらず、これらの作業には教師モデルへの大量のクエリが必要であり、かなりの金銭的および計算的コストがかかる。これらの問題に対処するために,本研究では,ブラックボックスモデルapiからクエリを効率的に学習し,実データ無しで優れた学生を訓練することを目的とした,新しい手法である \emph{query- efficient data-free learning from black-box models} (ideal)を提案する。詳しくは、IDEALは学生モデルをデータ生成とモデルの蒸留の2段階に分けて訓練する。イデアルはデータ生成段階においていかなるクエリも必要とせず、蒸留段階の各サンプルに対して一度だけ教師に問い合わせる。様々な実世界のデータセットに対する大規模な実験は、提案したIDEALの有効性を示している。例えば、IDEALは、DFMEのクエリ予算の0.02倍で、CIFAR10データセット上でDFMEの最高のベースラインメソッドDFMEのパフォーマンスを5.83%向上させることができる。

関連論文リスト

Matryoshka Model Learning for Improved Elastic Student Models [62.154536258259384]
MatTAは、新しいTeacher-TA-Studentレシピを使用して、複数の正確な学生モデルをトレーニングするためのフレームワークである。本手法はパブリックモデルであるGPT-2 Medium上で実証し,SAT Mathで24%,LAMBADAベンチマークで10%以上の相対的な改善を実現した。
論文参考訳（メタデータ） (2025-05-29T10:54:58Z)
Knowledge Distillation for Enhancing Walmart E-commerce Search Relevance Using Large Language Models [6.324684465674387]
大規模言語モデル(LLM)は優れたランキング機能を提供しますが、高レイテンシ要求のため、リアルタイムシステムにデプロイすることは困難です。高性能LLMをより効率的で低レイテンシの学生モデルに蒸留する新しいフレームワークを提案する。学生モデルは、非常に肯定的な指標でWalmart.comで生産に成功している。
論文参考訳（メタデータ） (2025-05-11T20:00:00Z)
Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。 LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-11-12T18:57:59Z)
Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。 KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文参考訳（メタデータ） (2024-10-15T07:51:00Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Customizing Synthetic Data for Data-Free Student Learning [6.8080936803807734]
DFKDは、オリジナルトレーニングデータなしで軽量な学生モデルを得ることを目指している。生徒モデルをより効果的に訓練するために、合成データを現在の学生学習能力に合わせてカスタマイズする。本稿では,データ自由学習(CSD)のための合成データのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-07-10T13:17:29Z)
MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。より小さな言語モデルにLPMを蒸留するKD手法を提案する。提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文参考訳（メタデータ） (2023-06-14T14:44:03Z)
Two Independent Teachers are Better Role Model [7.001845833295753]
我々は3D-DenseUNetと呼ばれる新しいディープラーニングモデルを提案する。ダウンサンプリングにおけるグローバルアグリゲーションブロックとして機能し、空間情報損失の問題を解決する。また,ラベル予測の代わりにモデル重みを要約した「2つの独立教師」という手法を提案する。
論文参考訳（メタデータ） (2023-06-09T08:22:41Z)
Lightweight Self-Knowledge Distillation with Multi-source Information Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文参考訳（メタデータ） (2023-05-16T05:46:31Z)
Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文参考訳（メタデータ） (2022-12-11T06:22:14Z)
SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文参考訳（メタデータ） (2021-07-08T14:17:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。