Fugu-MT 論文翻訳(概要): Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models

論文の概要: Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models

arxiv url: http://arxiv.org/abs/2305.01645v3
Date: Wed, 5 Jul 2023 20:41:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 17:41:46.425131
Title: Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models
Title（参考訳）: 蒸留か注釈か? コンパクトモデルのコスト効率の良い微調整
Authors: Junmo Kang, Wei Xu, Alan Ritter
Abstract要約: 微調整された大型モデルは非常に効果的であるが、推論は高価であり、二酸化炭素を排出する可能性がある。 T5-XXL (11B) から T5-Small (60M) への蒸留は, より多くのデータに注釈を付けるよりも, ほぼ常にコスト効率のよい方法であることを示す。コード、データセット、アノテーションのコスト見積、ベースラインモデルをベンチマークとして使用して、コンパクトモデルのコスト効率のトレーニングをさらに支援します。
参考スコア（独自算出の注目度）: 19.464992602919015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning large models is highly effective, however, inference can be expensive and produces carbon emissions. Knowledge distillation has been shown to be a practical solution to reduce inference costs, but the distillation process itself requires significant computational resources. Rather than buying or renting GPUs to fine-tune, then distill a large model, an NLP practitioner might instead choose to allocate the available budget to hire annotators and manually label additional fine-tuning data. In this paper, we investigate how to most efficiently use a fixed budget to build a compact model. Through extensive experiments on six diverse tasks, we show that distilling from T5-XXL (11B) to T5-Small (60M) is almost always a cost-efficient strategy compared to annotating more data to directly train a compact model (T5-Small). We further investigate how the optimal budget allocated towards computation varies across scenarios. We will make our code, datasets, annotation cost estimates, and baseline models available as a benchmark to support further work on cost-efficient training of compact models.
Abstract（参考訳）: 微調整された大型モデルは非常に効果的であるが、推論は高価であり、二酸化炭素を排出する。知識蒸留は推論コストを削減するための実用的な方法であることが示されているが、蒸留プロセス自体はかなりの計算資源を必要とする。 GPUを購入して微調整する代わりに、大きなモデルを蒸留する代わりに、NLP実践者は利用可能な予算をアノテータを雇い、手動で微調整データをラベル付けする。本稿では,固定予算を最も効率的に利用してコンパクトモデルを構築する方法について検討する。 T5-XXL (11B) から T5-Small (60M) への蒸留は, 6 つの多種多様なタスクに関する広範な実験を通して, コンパクトモデル(T5-Small) を直接訓練するために, より多くのデータに注釈を付けるよりも, ほぼ常にコスト効率のよい戦略であることを示した。さらに,計算に割り当てられた最適予算がシナリオによってどのように変化するかについても検討する。コード、データセット、アノテーションのコスト見積、ベースラインモデルをベンチマークとして使用して、コンパクトモデルのコスト効率のトレーニングをさらに支援します。

関連論文リスト

Complexity-aware fine-tuning [2.0393477576774752]
汎用大規模言語モデル(LLM)は、特定のドメインの性能を高めるために、教師付き微調整(SFT)によってしばしば微調整される。本稿では,エントロピーによって同定される複雑なデータに対してのみ推論を用いる,効率的な微調整のための新しい青写真を提案する。
論文参考訳（メタデータ） (2025-06-26T13:13:24Z)
Collaborative LLM Inference via Planning for Efficient Reasoning [50.04696654679751]
本稿では,プランナーモデルがまず,その問題の蒸留および高レベルの抽象化として定義されたプランを生成するテストタイム協調フレームワークを提案する。小型と大型のモデルは、プランナーと理性士として交代で働き、複雑なタスクを協調的に解決するために、多ラウンドのカスケードでプランを交換する。提案手法は,強力なプロプライエタリモデルに匹敵する精度を実現し,有償推論への依存を著しく低減する。
論文参考訳（メタデータ） (2025-06-13T08:35:50Z)
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。 Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文参考訳（メタデータ） (2025-05-22T01:56:29Z)
Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文参考訳（メタデータ） (2025-02-16T21:57:35Z)
Revisiting Cascaded Ensembles for Efficient Inference [32.914852531806]
機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。本研究では適応推論の簡単なスキームについて検討する。私たちは、資源効率の良いモデルから始まり、より大きくより表現力のあるモデルへと成長する、アンサンブルのカスケード(CoE)を構築します。
論文参考訳（メタデータ） (2024-07-02T15:14:12Z)
uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes [34.947522647009436]
We show that best-distilled models are outperform the teacher model by 5-7 WER points and are on well as or outperform similar supervised data filtering setups。私たちのモデルは、教師モデルと同等以上の性能を維持しながら、計算効率とメモリ効率も25～50%向上しています。
論文参考訳（メタデータ） (2024-07-01T13:07:01Z)
The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators [11.056579191156498]
大規模な事前訓練されたモデルは、アノテータとして使用することができ、クラウドワーカーを置き換えたり拡張したりするのに役立ちます。最上位モデルを採用する場合、APIコールに数千ドルを支払わなければならない場合が多い。事前訓練されたモデルからラベルを直接クエリする代わりに、ラベルを生成するプログラムを生成するようにモデルをタスクする。
論文参考訳（メタデータ） (2024-06-25T17:58:26Z)
Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文参考訳（メタデータ） (2024-06-15T14:44:43Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文参考訳（メタデータ） (2023-03-07T19:12:31Z)
Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2022-12-09T18:57:37Z)
DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。 GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。 GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文参考訳（メタデータ） (2022-12-07T12:27:28Z)
An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文参考訳（メタデータ） (2021-12-09T23:13:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。