論文の概要: Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models
- arxiv url: http://arxiv.org/abs/2305.01645v3
- Date: Wed, 5 Jul 2023 20:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:41:46.425131
- Title: Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models
- Title(参考訳): 蒸留か注釈か?
コンパクトモデルのコスト効率の良い微調整
- Authors: Junmo Kang, Wei Xu, Alan Ritter
- Abstract要約: 微調整された大型モデルは非常に効果的であるが、推論は高価であり、二酸化炭素を排出する可能性がある。
T5-XXL (11B) から T5-Small (60M) への蒸留は, より多くのデータに注釈を付けるよりも, ほぼ常にコスト効率のよい方法であることを示す。
コード、データセット、アノテーションのコスト見積、ベースラインモデルをベンチマークとして使用して、コンパクトモデルのコスト効率のトレーニングをさらに支援します。
- 参考スコア(独自算出の注目度): 19.464992602919015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large models is highly effective, however, inference can be
expensive and produces carbon emissions. Knowledge distillation has been shown
to be a practical solution to reduce inference costs, but the distillation
process itself requires significant computational resources. Rather than buying
or renting GPUs to fine-tune, then distill a large model, an NLP practitioner
might instead choose to allocate the available budget to hire annotators and
manually label additional fine-tuning data. In this paper, we investigate how
to most efficiently use a fixed budget to build a compact model. Through
extensive experiments on six diverse tasks, we show that distilling from T5-XXL
(11B) to T5-Small (60M) is almost always a cost-efficient strategy compared to
annotating more data to directly train a compact model (T5-Small). We further
investigate how the optimal budget allocated towards computation varies across
scenarios. We will make our code, datasets, annotation cost estimates, and
baseline models available as a benchmark to support further work on
cost-efficient training of compact models.
- Abstract(参考訳): 微調整された大型モデルは非常に効果的であるが、推論は高価であり、二酸化炭素を排出する。
知識蒸留は推論コストを削減するための実用的な方法であることが示されているが、蒸留プロセス自体はかなりの計算資源を必要とする。
GPUを購入して微調整する代わりに、大きなモデルを蒸留する代わりに、NLP実践者は利用可能な予算をアノテータを雇い、手動で微調整データをラベル付けする。
本稿では,固定予算を最も効率的に利用してコンパクトモデルを構築する方法について検討する。
T5-XXL (11B) から T5-Small (60M) への蒸留は, 6 つの多種多様なタスクに関する広範な実験を通して, コンパクトモデル(T5-Small) を直接訓練するために, より多くのデータに注釈を付けるよりも, ほぼ常にコスト効率のよい戦略であることを示した。
さらに,計算に割り当てられた最適予算がシナリオによってどのように変化するかについても検討する。
コード、データセット、アノテーションのコスト見積、ベースラインモデルをベンチマークとして使用して、コンパクトモデルのコスト効率のトレーニングをさらに支援します。
関連論文リスト
- Revisiting Cascaded Ensembles for Efficient Inference [32.914852531806]
機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。
本研究では適応推論の簡単なスキームについて検討する。
私たちは、資源効率の良いモデルから始まり、より大きくより表現力のあるモデルへと成長する、アンサンブルのカスケード(CoE)を構築します。
論文 参考訳(メタデータ) (2024-07-02T15:14:12Z) - The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators [11.056579191156498]
大規模な事前訓練されたモデルは、アノテータとして使用することができ、クラウドワーカーを置き換えたり拡張したりするのに役立ちます。
最上位モデルを採用する場合、APIコールに数千ドルを支払わなければならない場合が多い。
事前訓練されたモデルからラベルを直接クエリする代わりに、ラベルを生成するプログラムを生成するようにモデルをタスクする。
論文 参考訳(メタデータ) (2024-06-25T17:58:26Z) - Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。
GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。
GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文 参考訳(メタデータ) (2022-12-07T12:27:28Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。