論文の概要: The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators
- arxiv url: http://arxiv.org/abs/2407.11004v1
- Date: Tue, 25 Jun 2024 17:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 12:29:47.758414
- Title: The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators
- Title(参考訳): ALCHEmist: LLMデータアノテーションより500倍CHEaperの自動ラベル
- Authors: Tzu-Heng Huang, Catherine Cao, Vaishnavi Bhargava, Frederic Sala,
- Abstract要約: 大規模な事前訓練されたモデルは、アノテータとして使用することができ、クラウドワーカーを置き換えたり拡張したりするのに役立ちます。
最上位モデルを採用する場合、APIコールに数千ドルを支払わなければならない場合が多い。
事前訓練されたモデルからラベルを直接クエリする代わりに、ラベルを生成するプログラムを生成するようにモデルをタスクする。
- 参考スコア(独自算出の注目度): 11.056579191156498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pretrained models can be used as annotators, helping replace or augment crowdworkers and enabling distilling generalist models into smaller specialist models. Unfortunately, this comes at a cost: employing top-of-the-line models often requires paying thousands of dollars for API calls, while the resulting datasets are static and challenging to audit. To address these challenges, we propose a simple alternative: rather than directly querying labels from pretrained models, we task models to generate programs that can produce labels. These programs can be stored and applied locally, re-used and extended, and cost orders of magnitude less. Our system, Alchemist, obtains comparable to or better performance than large language model-based annotation in a range of tasks for a fraction of the cost: on average, improvements amount to a 12.9% enhancement while the total labeling costs across all datasets are reduced by a factor of approximately 500x.
- Abstract(参考訳): 大きな事前訓練されたモデルは、アノテータとして使用することができ、クラウドワーカーを置き換えたり拡張したりし、より小さなスペシャリストモデルにジェネラリストモデルを蒸留することができる。
最上位モデルを採用する場合、APIコールに数千ドルを支払わなければならない場合が多いが、結果として得られたデータセットは静的で、監査が難しい。
これらの課題に対処するために、我々は、事前訓練されたモデルからラベルを直接クエリする代わりに、ラベルを生成可能なプログラムを生成するようにモデルをタスクする、簡単な方法を提案する。
これらのプログラムは、ローカルに保存、適用、再使用、拡張、コストの桁違いの削減が可能である。
我々のシステムであるAlchemistは、コストのごく一部のタスクにおいて、大きな言語モデルベースのアノテーションに匹敵するパフォーマンスを得る。平均すると、改善は12.9%向上し、全データセットのラベリングコストはおよそ500倍削減される。
関連論文リスト
- Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance [5.009377915313077]
この研究は、一般の大規模モデルよりも優れた特殊化された小型モデルにおいて、ラベル付きサンプルがいくつ必要かという研究ギャップに対処する。
特殊化されたモデルでは、一般的なモデルと同等かそれ以上のサンプル(平均10~1000ドル)をほとんど必要としないことが多い。
パフォーマンスのばらつきを考慮すると、必要なラベルの数は平均100 - 200%$、特定のケースでは1500%$まで増加する。
論文 参考訳(メタデータ) (2024-02-20T08:38:24Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models [19.464992602919015]
微調整された大型モデルは非常に効果的であるが、推論は高価であり、二酸化炭素を排出する可能性がある。
T5-XXL (11B) から T5-Small (60M) への蒸留は, より多くのデータに注釈を付けるよりも, ほぼ常にコスト効率のよい方法であることを示す。
コード、データセット、アノテーションのコスト見積、ベースラインモデルをベンチマークとして使用して、コンパクトモデルのコスト効率のトレーニングをさらに支援します。
論文 参考訳(メタデータ) (2023-05-02T17:56:16Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - Zero-Shot Cost Models for Out-of-the-box Learned Cost Prediction [18.46293613612346]
ゼロショットコストモデルを導入し、未確認データベースに一般化した学習コスト推定を可能にする。
事前学習したコストモデルに基づく新しい学習パラダイムを提案する。
ゼロショットコストモデルが数ショットモードで利用可能であることを示し、未知のデータベースに少数追加のトレーニングクエリを追加するだけで、その品質をさらに向上できることを示した。
論文 参考訳(メタデータ) (2022-01-03T10:11:35Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。