論文の概要: Balancing Label Quantity and Quality for Scalable Elicitation
- arxiv url: http://arxiv.org/abs/2410.13215v1
- Date: Thu, 17 Oct 2024 04:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:03.265408
- Title: Balancing Label Quantity and Quality for Scalable Elicitation
- Title(参考訳): スケーラブルな省エネのためのラベル量と品質のバランス
- Authors: Alex Mallen, Nora Belrose,
- Abstract要約: スケーラブルな監視は、人間の判断が信頼できない、あるいは高価であるドメインにおけるAIシステムのトレーニングと評価の方法を研究する。
Burns et al. (2023) による最近の研究は、インターネットスケールコーパスで事前訓練された言語モデル(LM)が正しい回答を生み出すための帰納的バイアスを示すことを示唆している。
本稿では,NLP分類タスクにおける量品質トレードオフのミクロ経済性について検討する。
- 参考スコア(独自算出の注目度): 2.2143065226946423
- License:
- Abstract: Scalable oversight studies methods of training and evaluating AI systems in domains where human judgement is unreliable or expensive, such as scientific research and software engineering in complex codebases. Recent work in this area by Burns et al. (2023) suggests that Language Models (LMs) pretrained on internet-scale corpora exhibit an inductive bias toward producing correct answers, even when finetuned on error-prone labels produced by a smaller language model. This suggests that massive pretraining combined with finetuning on imperfect human labels may be a solid baseline method for scalable oversight. In the real world, however, label quality is not fixed: practitioners face a quantity-quality tradeoff when generating finetuning data. In this paper, we explore the microeconomics of the quantity-quality tradeoff on binary NLP classification tasks used in Burns et al. (2023). We find that there are three regimes of eliciting classification knowledge from pretrained models using supervised finetuning: quantity-dominant, quality-dominant, and a mixed regime involving the use of low- and high-quality data together to attain higher accuracy at a lower cost than using either alone. We explore sample-efficient elicitation methods that make use of two datasets of differing qualities, and establish a Pareto frontier of scalable elicitation methods that optimally trade off labeling cost and classifier performance.
- Abstract(参考訳): スケーラブルな監視は、複雑なコードベースにおける科学研究やソフトウェア工学など、人間の判断が信頼できない、あるいは高価である領域におけるAIシステムのトレーニングと評価の方法を研究する。
Burns et al (2023) による最近の研究は、インターネット規模のコーパスで事前訓練された言語モデル (LM) が、より小さな言語モデルで作成された誤りのラベルを微調整しても、正しい回答を生み出すための誘導バイアスを示すことを示唆している。
これは、大規模な事前訓練と不完全な人間のラベルの微調整が、スケーラブルな監視のための確固としたベースライン手法である可能性を示唆している。
しかし、現実の世界では、ラベルの品質は固定されていない。
本稿では,Burns et al (2023) で使用されるバイナリNLP分類タスクにおける量品質トレードオフのミクロ経済学について検討する。
教師付き微調整を用いて事前訓練されたモデルから分類知識を抽出する3つの方法が存在することがわかった。
本研究では,異なる品質のデータセットを2つ利用し,ラベリングコストと分類器性能を最適にトレードオフするスケーラブルなエレケーション手法のParetoフロンティアを確立する。
関連論文リスト
- Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Going Beyond One-Hot Encoding in Classification: Can Human Uncertainty
Improve Model Performance? [14.610038284393166]
ラベルの不確実性は、分散ラベルを介してトレーニングプロセスに明示的に組み込まれていることを示す。
ラベルの不確実性の取り込みは、モデルが見つからないデータをより一般化し、モデルの性能を向上させるのに役立ちます。
既存のキャリブレーション法と同様に、分布ラベルはより良いキャリブレーションの確率をもたらし、それによってより確実で信頼できる予測が得られる。
論文 参考訳(メタデータ) (2022-05-30T17:19:11Z) - Quantity vs Quality: Investigating the Trade-Off between Sample Size and
Label Reliability [0.0]
本研究では,学習者が誤ったラベルを受信できる確率論的領域における学習について検討するが,繰り返しサンプリングすることでラベルの信頼性を向上させることができる。
トレーニング信号が隠れたコミュニティカードに依存するポーカーハンドの強度を比較するアプリケーションにおいて、この問題を動機付けている。
そこで我々は,学習過程において下位から上位への検証を切り替えることと,得られたラベルの信頼性を近似するためにカイ二乗統計を用いた2つの検証戦略を提案する。
論文 参考訳(メタデータ) (2022-04-20T13:52:00Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - Improving Medical Annotation Quality to Decrease Labeling Burden Using
Stratified Noisy Cross-Validation [3.690031561736533]
医用画像の診断における多様性は十分に確立されており、トレーニングにおける多様性と医療ラベルの課題への注意がこの問題を悪化させる可能性がある。
Noisy Cross-Validationはトレーニングデータを半分に分割し、コンピュータビジョンタスクの低品質ラベルを特定する。
本稿では, SNCV (Stratified Noisy Cross-Validation) について紹介する。
論文 参考訳(メタデータ) (2020-09-22T23:32:59Z) - Mitigating Class Boundary Label Uncertainty to Reduce Both Model Bias
and Variance [4.563176550691304]
トレーニングデータラベルの不正確性と不確実性に対処する新しい手法について検討する。
本手法は,トレーニングセットのポイントワイドラベルの不確かさを推定することにより,バイアスと分散の両面を低減できる。
論文 参考訳(メタデータ) (2020-02-23T18:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。