Fugu-MT 論文翻訳(概要): Balancing Label Quantity and Quality for Scalable Elicitation

論文の概要: Balancing Label Quantity and Quality for Scalable Elicitation

arxiv url: http://arxiv.org/abs/2410.13215v2
Date: Mon, 21 Oct 2024 01:32:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.752253
Title: Balancing Label Quantity and Quality for Scalable Elicitation
Title（参考訳）: スケーラブルな省エネのためのラベル量と品質のバランス
Authors: Alex Mallen, Nora Belrose,
Abstract要約: 本研究では,NLP分類タスクにおける量品質トレードオフのミクロ経済性について検討する。教師付き微調整を用いた事前学習モデルから分類知識を抽出する3つの方法について検討した。固定ラベル付予算において,教師付き微調整の精度を最大5ポイント向上できることがわかった。
参考スコア（独自算出の注目度）: 2.2143065226946423
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scalable oversight studies methods of training and evaluating AI systems in domains where human judgment is unreliable or expensive, such as scientific research and software engineering in complex codebases. Most work in this area has focused on methods of improving the quality of labels. Recent work by Burns et al. (2023) considers the complementary problem of training models with low-quality labels, finding that large pretrained models often have an inductive bias towards producing correct answers. In practice, however, neither label quantity nor quality is fixed: practitioners face a quantity-quality tradeoff. In this paper, we explore the microeconomics of the quantity-quality tradeoff on binary NLP classification tasks used in Burns et al. (2023). While sample-efficient learning has been studied extensively, little public research has focused on scalable elicitation: eliciting capabilities from pretrained models subject to labeling cost constraints. We find that this setting has novel dynamics caused by the tradeoff between label quantity and quality, as well as the model's existing latent capabilities. We observe three regimes of eliciting classification knowledge from pretrained models using supervised finetuning: quantity-dominant, quality-dominant, and a mixed regime involving the use of low- and high-quality data together to attain higher accuracy at a lower cost than using either alone. We explore sample-efficient elicitation methods that make use of two datasets of differing qualities, and establish a Pareto frontier of scalable elicitation methods that optimally trade off labeling cost and classifier performance. We find that the accuracy of supervised fine-tuning can be improved by up to 5 percentage points at a fixed labeling budget by adding a few-shot prompt to make use of the model's existing knowledge of the task.
Abstract（参考訳）: スケーラブルな監視は、複雑なコードベースにおける科学的研究やソフトウェア工学など、人間の判断が信頼できない、あるいは高価である領域におけるAIシステムのトレーニングと評価の方法を研究する。この分野のほとんどの研究は、ラベルの品質を改善する方法に焦点を当ててきた。 Burns et al (2023) による最近の研究は、低品質なラベルを持つトレーニングモデルの相補的な問題を考えており、大きな事前訓練されたモデルは正しい回答を生み出すための帰納的バイアスを持つことが多い。しかし実際には、ラベルの量や品質は固定されておらず、実践者は質の高いトレードオフに直面している。本稿では,Burns et al (2023) で使用されるバイナリNLP分類タスクにおける量品質トレードオフのミクロ経済学について検討する。サンプル効率の学習は広く研究されているが,コスト制約をラベル付けした事前学習モデルから能力を引き出すという,スケーラブルな推論に焦点を当てた公開研究はほとんどない。この設定には、ラベル量と品質のトレードオフに起因する新しいダイナミクスと、モデルの既存の潜在能力があることが分かりました。教師付き微調整を用いて事前訓練されたモデルから分類知識を抽出する3つの方法:量優劣、品質優劣、および低品質データと高品質データとを併用した混在状態を用いて、単体よりも低コストで精度の高い分類知識を得る。本研究では,異なる品質のデータセットを2つ利用し,ラベリングコストと分類器性能を最適にトレードオフするスケーラブルなエレケーション手法のParetoフロンティアを確立する。教師付き微調整の精度は、モデルの既存のタスク知識を活用するために、数発のプロンプトを追加することで、固定ラベル付け予算において最大5ポイント向上することができる。

関連論文リスト

"All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations [0.0]
「金」と「地底真理」のラベルには誤りがある。本研究では、専門家による極めて低い信頼性の文脈においても、そのような疑問に答える方法を示す。
論文参考訳（メタデータ） (2024-11-23T19:18:08Z)
Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文参考訳（メタデータ） (2024-07-26T09:33:53Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文参考訳（メタデータ） (2023-09-23T08:46:11Z)
SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2023-01-26T03:53:25Z)
Going Beyond One-Hot Encoding in Classification: Can Human Uncertainty Improve Model Performance? [14.610038284393166]
ラベルの不確実性は、分散ラベルを介してトレーニングプロセスに明示的に組み込まれていることを示す。ラベルの不確実性の取り込みは、モデルが見つからないデータをより一般化し、モデルの性能を向上させるのに役立ちます。既存のキャリブレーション法と同様に、分布ラベルはより良いキャリブレーションの確率をもたらし、それによってより確実で信頼できる予測が得られる。
論文参考訳（メタデータ） (2022-05-30T17:19:11Z)
Quantity vs Quality: Investigating the Trade-Off between Sample Size and Label Reliability [0.0]
本研究では,学習者が誤ったラベルを受信できる確率論的領域における学習について検討するが,繰り返しサンプリングすることでラベルの信頼性を向上させることができる。トレーニング信号が隠れたコミュニティカードに依存するポーカーハンドの強度を比較するアプリケーションにおいて、この問題を動機付けている。そこで我々は,学習過程において下位から上位への検証を切り替えることと,得られたラベルの信頼性を近似するためにカイ二乗統計を用いた2つの検証戦略を提案する。
論文参考訳（メタデータ） (2022-04-20T13:52:00Z)
Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文参考訳（メタデータ） (2022-02-15T02:14:33Z)
Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文参考訳（メタデータ） (2021-12-10T18:59:06Z)
Improving Medical Annotation Quality to Decrease Labeling Burden Using Stratified Noisy Cross-Validation [3.690031561736533]
医用画像の診断における多様性は十分に確立されており、トレーニングにおける多様性と医療ラベルの課題への注意がこの問題を悪化させる可能性がある。 Noisy Cross-Validationはトレーニングデータを半分に分割し、コンピュータビジョンタスクの低品質ラベルを特定する。本稿では, SNCV (Stratified Noisy Cross-Validation) について紹介する。
論文参考訳（メタデータ） (2020-09-22T23:32:59Z)
Mitigating Class Boundary Label Uncertainty to Reduce Both Model Bias and Variance [4.563176550691304]
トレーニングデータラベルの不正確性と不確実性に対処する新しい手法について検討する。本手法は,トレーニングセットのポイントワイドラベルの不確かさを推定することにより,バイアスと分散の両面を低減できる。
論文参考訳（メタデータ） (2020-02-23T18:24:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。