論文の概要: Don't Label Twice: Quantity Beats Quality when Comparing Binary Classifiers on a Budget
- arxiv url: http://arxiv.org/abs/2402.02249v2
- Date: Thu, 17 Oct 2024 08:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:09.950422
- Title: Don't Label Twice: Quantity Beats Quality when Comparing Binary Classifiers on a Budget
- Title(参考訳): バイナリ分類器を予算で比較した場合、量子は品質を上回ります
- Authors: Florian E. Dorner, Moritz Hardt,
- Abstract要約: 特定のデータポイントの複数のノイズラベルを、過半数の投票でよりノイズの少ないラベルに集約するのは、一般的なプラクティスです。
従来の知恵に反する定理を証明します。
機械学習ベンチマークの設計における研究の意義について論じる。
- 参考スコア(独自算出の注目度): 16.81162898745253
- License:
- Abstract: We study how to best spend a budget of noisy labels to compare the accuracy of two binary classifiers. It's common practice to collect and aggregate multiple noisy labels for a given data point into a less noisy label via a majority vote. We prove a theorem that runs counter to conventional wisdom. If the goal is to identify the better of two classifiers, we show it's best to spend the budget on collecting a single label for more samples. Our result follows from a non-trivial application of Cram\'er's theorem, a staple in the theory of large deviations. We discuss the implications of our work for the design of machine learning benchmarks, where they overturn some time-honored recommendations. In addition, our results provide sample size bounds superior to what follows from Hoeffding's bound.
- Abstract(参考訳): 本稿では,2つのバイナリ分類器の精度を比較するために,雑音ラベルの予算を最大限に活用する方法について検討する。
あるデータポイントの複数のノイズのあるラベルを、過半数の投票でよりノイズの少ないラベルに集めて集約するのは、一般的なプラクティスです。
従来の知恵に反する定理を証明します。
2つの分類器のより良い部分を特定することが目的ならば、より多くのサンプルを収集するために1つのラベルを集めるのに予算を費やすのが最善であることを示す。
我々の結果はCram\'erの定理の非自明な応用、すなわち大きな偏差の理論における基礎から導かれる。
機械学習ベンチマークの設計において、我々の研究がもたらす意味について論じる。
さらに,本実験の結果は,Hoeffding の有界値に比較して,サンプルサイズ境界が優れている。
関連論文リスト
- Regularly Truncated M-estimators for Learning with Noisy Labels [79.36560434324586]
本稿では,上記の2つの問題に同時に対処するために,RTME (Trruncated M-estimator) を提案する。
具体的には、RTMEは、切り離されたM推定器とオリジナルのM推定器の間でモードを交互に切り替えることができる。
当社の戦略がラベルノイズ耐性であることを実証します。
論文 参考訳(メタデータ) (2023-09-02T10:22:20Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Crowdsourcing subjective annotations using pairwise comparisons reduces
bias and error compared to the majority-vote method [0.0]
本稿では,ランダムな誤差と測定バイアスが,主観的構成物のクラウドソースアノテーションにどのように入るかを理解するための理論的枠組みを提案する。
次に、Eloスコアとペア比較ラベリングを組み合わせたパイプラインを提案し、両種類の測定誤差を低減するために、ユビキタスな多数投票法より優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T17:14:12Z) - To Aggregate or Not? Learning with Separate Noisy Labels [28.14966756980763]
本稿では,個別のノイズラベルを単一のラベルに集約するか,個別に使用すべきかという問題に対処する。
実験的リスク最小化フレームワークを用いて,両手法の性能を理論的に解析する。
我々の定理は、ノイズレートが高い場合やラベル/アノテーションの数が少ない場合、ラベルの分離がラベルの集約よりも望ましいと結論付けている。
論文 参考訳(メタデータ) (2022-06-14T21:32:26Z) - Quantity vs Quality: Investigating the Trade-Off between Sample Size and
Label Reliability [0.0]
本研究では,学習者が誤ったラベルを受信できる確率論的領域における学習について検討するが,繰り返しサンプリングすることでラベルの信頼性を向上させることができる。
トレーニング信号が隠れたコミュニティカードに依存するポーカーハンドの強度を比較するアプリケーションにおいて、この問題を動機付けている。
そこで我々は,学習過程において下位から上位への検証を切り替えることと,得られたラベルの信頼性を近似するためにカイ二乗統計を用いた2つの検証戦略を提案する。
論文 参考訳(メタデータ) (2022-04-20T13:52:00Z) - Active Learning with Label Comparisons [41.82179028046654]
我々は、$k-1$のアクティブクエリで、$k$ラベルのベストを見つけることができることを示した。
我々の分析の鍵となる要素は、真の分布の「ラベル近傍グラフ」である。
論文 参考訳(メタデータ) (2022-04-10T12:13:46Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Are Fewer Labels Possible for Few-shot Learning? [81.89996465197392]
ごく限られたデータとラベルのため、わずかなショット学習は難しい。
近年のBiT (Big Transfer) 研究は、異なる領域における大規模ラベル付きデータセットの事前トレーニングによって、少数ショット学習が大きな恩恵を受けることを示した。
本稿では,ファインチューニングにおけるクラスタリングと固有サンプルの共進化を活かし,ショット学習の削減を図る。
論文 参考訳(メタデータ) (2020-12-10T18:59:29Z) - Pointwise Binary Classification with Pairwise Confidence Comparisons [97.79518780631457]
ペアワイズ比較(Pcomp)分類を提案し、ラベルのないデータのペアしか持たない。
我々はPcomp分類をノイズラベル学習に結びつけて、進歩的UREを開発し、一貫性の正則化を課すことにより改善する。
論文 参考訳(メタデータ) (2020-10-05T09:23:58Z) - Class2Simi: A Noise Reduction Perspective on Learning with Noisy Labels [98.13491369929798]
そこで我々は,ノイズのあるクラスラベルを持つデータポイントを,ノイズの多い類似ラベルを持つデータペアに変換するClass2Simiというフレームワークを提案する。
Class2Simiは、この変換がミニバッチのオンザフライであるだけでなく、モデル予測上の損失をペアワイズに変化させるため、計算的に効率的である。
論文 参考訳(メタデータ) (2020-06-14T07:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。