論文の概要: Balancing Label Quantity and Quality for Scalable Elicitation
- arxiv url: http://arxiv.org/abs/2410.13215v2
- Date: Mon, 21 Oct 2024 01:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:47.732656
- Title: Balancing Label Quantity and Quality for Scalable Elicitation
- Title(参考訳): スケーラブルな省エネのためのラベル量と品質のバランス
- Authors: Alex Mallen, Nora Belrose,
- Abstract要約: 本研究では,NLP分類タスクにおける量品質トレードオフのミクロ経済性について検討する。
教師付き微調整を用いた事前学習モデルから分類知識を抽出する3つの方法について検討した。
固定ラベル付予算において,教師付き微調整の精度を最大5ポイント向上できることがわかった。
- 参考スコア(独自算出の注目度): 2.2143065226946423
- License:
- Abstract: Scalable oversight studies methods of training and evaluating AI systems in domains where human judgment is unreliable or expensive, such as scientific research and software engineering in complex codebases. Most work in this area has focused on methods of improving the quality of labels. Recent work by Burns et al. (2023) considers the complementary problem of training models with low-quality labels, finding that large pretrained models often have an inductive bias towards producing correct answers. In practice, however, neither label quantity nor quality is fixed: practitioners face a quantity-quality tradeoff. In this paper, we explore the microeconomics of the quantity-quality tradeoff on binary NLP classification tasks used in Burns et al. (2023). While sample-efficient learning has been studied extensively, little public research has focused on scalable elicitation: eliciting capabilities from pretrained models subject to labeling cost constraints. We find that this setting has novel dynamics caused by the tradeoff between label quantity and quality, as well as the model's existing latent capabilities. We observe three regimes of eliciting classification knowledge from pretrained models using supervised finetuning: quantity-dominant, quality-dominant, and a mixed regime involving the use of low- and high-quality data together to attain higher accuracy at a lower cost than using either alone. We explore sample-efficient elicitation methods that make use of two datasets of differing qualities, and establish a Pareto frontier of scalable elicitation methods that optimally trade off labeling cost and classifier performance. We find that the accuracy of supervised fine-tuning can be improved by up to 5 percentage points at a fixed labeling budget by adding a few-shot prompt to make use of the model's existing knowledge of the task.
- Abstract(参考訳): スケーラブルな監視は、複雑なコードベースにおける科学的研究やソフトウェア工学など、人間の判断が信頼できない、あるいは高価である領域におけるAIシステムのトレーニングと評価の方法を研究する。
この分野のほとんどの研究は、ラベルの品質を改善する方法に焦点を当ててきた。
Burns et al (2023) による最近の研究は、低品質なラベルを持つトレーニングモデルの相補的な問題を考えており、大きな事前訓練されたモデルは正しい回答を生み出すための帰納的バイアスを持つことが多い。
しかし実際には、ラベルの量や品質は固定されておらず、実践者は質の高いトレードオフに直面している。
本稿では,Burns et al (2023) で使用されるバイナリNLP分類タスクにおける量品質トレードオフのミクロ経済学について検討する。
サンプル効率の学習は広く研究されているが,コスト制約をラベル付けした事前学習モデルから能力を引き出すという,スケーラブルな推論に焦点を当てた公開研究はほとんどない。
この設定には、ラベル量と品質のトレードオフに起因する新しいダイナミクスと、モデルの既存の潜在能力があることが分かりました。
教師付き微調整を用いて事前訓練されたモデルから分類知識を抽出する3つの方法:量優劣、品質優劣、および低品質データと高品質データとを併用した混在状態を用いて、単体よりも低コストで精度の高い分類知識を得る。
本研究では,異なる品質のデータセットを2つ利用し,ラベリングコストと分類器性能を最適にトレードオフするスケーラブルなエレケーション手法のParetoフロンティアを確立する。
教師付き微調整の精度は、モデルの既存のタスク知識を活用するために、数発のプロンプトを追加することで、固定ラベル付け予算において最大5ポイント向上することができる。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Prototype-Anchored Learning for Learning with Imperfect Annotations [83.7763875464011]
不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶことは困難である。
本稿では,様々な学習に基づく分類手法に容易に組み込むことができるプロトタイプ・アンコレッド学習法を提案する。
我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。
論文 参考訳(メタデータ) (2022-06-23T10:25:37Z) - Going Beyond One-Hot Encoding in Classification: Can Human Uncertainty
Improve Model Performance? [14.610038284393166]
ラベルの不確実性は、分散ラベルを介してトレーニングプロセスに明示的に組み込まれていることを示す。
ラベルの不確実性の取り込みは、モデルが見つからないデータをより一般化し、モデルの性能を向上させるのに役立ちます。
既存のキャリブレーション法と同様に、分布ラベルはより良いキャリブレーションの確率をもたらし、それによってより確実で信頼できる予測が得られる。
論文 参考訳(メタデータ) (2022-05-30T17:19:11Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Mitigating Class Boundary Label Uncertainty to Reduce Both Model Bias
and Variance [4.563176550691304]
トレーニングデータラベルの不正確性と不確実性に対処する新しい手法について検討する。
本手法は,トレーニングセットのポイントワイドラベルの不確かさを推定することにより,バイアスと分散の両面を低減できる。
論文 参考訳(メタデータ) (2020-02-23T18:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。