論文の概要: Pearls from Pebbles: Improved Confidence Functions for Auto-labeling
- arxiv url: http://arxiv.org/abs/2404.16188v1
- Date: Wed, 24 Apr 2024 20:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 15:27:26.463113
- Title: Pearls from Pebbles: Improved Confidence Functions for Auto-labeling
- Title(参考訳): Pebbleのパール: 自動ラベリングのための信頼性機能の改善
- Authors: Harit Vishwakarma, Reid, Chen, Sui Jiet Tay, Satya Sai Srinath Namburi, Frederic Sala, Ramya Korlakai Vinayak,
- Abstract要約: しきい値に基づく自動ラベル付け(TBAL)は、上記のモデルの信頼度スコアのしきい値を見つけ、ラベルなしのデータポイントを正確にラベル付けすることで機能する。
本稿では,近位TBAL信頼度関数の研究のための枠組みを提案する。
本稿では,TBALシステムの性能を最大化するポストホック法を提案する。
- 参考スコア(独自算出の注目度): 51.44986105969375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auto-labeling is an important family of techniques that produce labeled training sets with minimum manual labeling. A prominent variant, threshold-based auto-labeling (TBAL), works by finding a threshold on a model's confidence scores above which it can accurately label unlabeled data points. However, many models are known to produce overconfident scores, leading to poor TBAL performance. While a natural idea is to apply off-the-shelf calibration methods to alleviate the overconfidence issue, such methods still fall short. Rather than experimenting with ad-hoc choices of confidence functions, we propose a framework for studying the \emph{optimal} TBAL confidence function. We develop a tractable version of the framework to obtain \texttt{Colander} (Confidence functions for Efficient and Reliable Auto-labeling), a new post-hoc method specifically designed to maximize performance in TBAL systems. We perform an extensive empirical evaluation of our method \texttt{Colander} and compare it against methods designed for calibration. \texttt{Colander} achieves up to 60\% improvements on coverage over the baselines while maintaining auto-labeling error below $5\%$ and using the same amount of labeled data as the baselines.
- Abstract(参考訳): 自動ラベリングは、最小限の手動ラベリングでラベル付きトレーニングセットを生成する重要なテクニックのファミリーである。
顕著な変種、しきい値に基づく自動ラベル付け(TBAL)は、上述したモデルの信頼度スコアのしきい値を見つけ、ラベルなしのデータポイントを正確にラベル付けすることで機能する。
しかし、多くのモデルは自信過剰なスコアを生み出すことが知られており、TBALのパフォーマンスは劣っている。
自然に考えれば、過剰な自信を和らげるためにオフ・ザ・シェルフ・キャリブレーション法を適用するというものであるが、そのような方法はいまだに不足している。
信頼関数のアドホックな選択を実験するのではなく, TBAL信頼関数の研究のための枠組みを提案する。
TBALシステムの性能を最大化するための新しいポストホック手法である, フレームワークのトラクタブルバージョンを開発した。
そこで我々は,<texttt{Colander} 法を広範囲に評価し,キャリブレーション用に設計した手法と比較した。
\texttt{Colander}は、ベースラインに対するカバレッジを最大60\%改善し、自動ラベル付けエラーを5\%以下に維持し、ベースラインと同じ量のラベル付きデータを使用する。
関連論文リスト
- Show Your Work with Confidence: Confidence Bands for Tuning Curves [51.12106543561089]
チューニング作業の関数としての曲線プロット検証性能。
そこで我々は,曲線のチューニングに有効な信頼帯域を構築するための最初の方法を提案する。
提案手法と比較し,提案手法の有効性を検証し,サンプルサイズの影響を解析し,モデルの比較に関するガイダンスを提供する。
論文 参考訳(メタデータ) (2023-11-16T00:50:37Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech
Recognition [49.42732949233184]
ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。
損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。
そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:13:52Z) - Confidence Estimation Using Unlabeled Data [12.512654188295764]
トレーニングラベルがほとんど利用できない場合, 半教師付き設定に対する最初の信頼度推定法を提案する。
トレーニングの一貫性を代理関数として使用し、信頼度推定のための一貫性ランキング損失を提案する。
画像分類とセグメンテーションの両方のタスクにおいて,本手法は信頼度推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-19T20:11:30Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - How Does Beam Search improve Span-Level Confidence Estimation in
Generative Sequence Labeling? [11.481435098152893]
本稿では,生成配列ラベリングにおけるモデル信頼度の推定に関する実証的な知見を提供する。
6つの公開データセットで検証した結果,提案手法は生成配列ラベルモデルのキャリブレーション誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2022-12-21T05:01:01Z) - FreeMatch: Self-adaptive Thresholding for Semi-supervised Learning [46.95063831057502]
本稿では,モデルの学習状況に応じて,信頼度閾値を自己適応的に定義・調整するためのemphFreeMatchを提案する。
FreeMatchは、最新の最先端メソッドであるFlexMatchよりもtextbf5.78%、textbf13.59%、textbf1.28%のエラー率削減を実現している。
論文 参考訳(メタデータ) (2022-05-15T10:07:52Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。