論文の概要: Quantity vs Quality: Investigating the Trade-Off between Sample Size and
Label Reliability
- arxiv url: http://arxiv.org/abs/2204.09462v1
- Date: Wed, 20 Apr 2022 13:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 14:13:02.876463
- Title: Quantity vs Quality: Investigating the Trade-Off between Sample Size and
Label Reliability
- Title(参考訳): 量対品質: サンプルサイズとラベル信頼性のトレードオフを探る
- Authors: Timo Bertram, Johannes F\"urnkranz, Martin M\"uller
- Abstract要約: 本研究では,学習者が誤ったラベルを受信できる確率論的領域における学習について検討するが,繰り返しサンプリングすることでラベルの信頼性を向上させることができる。
トレーニング信号が隠れたコミュニティカードに依存するポーカーハンドの強度を比較するアプリケーションにおいて、この問題を動機付けている。
そこで我々は,学習過程において下位から上位への検証を切り替えることと,得られたラベルの信頼性を近似するためにカイ二乗統計を用いた2つの検証戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study learning in probabilistic domains where the learner
may receive incorrect labels but can improve the reliability of labels by
repeatedly sampling them. In such a setting, one faces the problem of whether
the fixed budget for obtaining training examples should rather be used for
obtaining all different examples or for improving the label quality of a
smaller number of examples by re-sampling their labels. We motivate this
problem in an application to compare the strength of poker hands where the
training signal depends on the hidden community cards, and then study it in
depth in an artificial setting where we insert controlled noise levels into the
MNIST database. Our results show that with increasing levels of noise,
resampling previous examples becomes increasingly more important than obtaining
new examples, as classifier performance deteriorates when the number of
incorrect labels is too high. In addition, we propose two different validation
strategies; switching from lower to higher validations over the course of
training and using chi-square statistics to approximate the confidence in
obtained labels.
- Abstract(参考訳): 本稿では,学習者が不正確なラベルを受信する確率的領域における学習について検討するが,繰り返しサンプリングすることでラベルの信頼性を向上させることができる。
このような状況下では、トレーニング例を得るための一定の予算が、すべての異なる例を得るためか、ラベルを再サンプリングすることでより少ない数の例のラベル品質を改善するために使われるべきかという問題に直面している。
学習信号が隠れたコミュニティカードに依存するポーカーハンドの強度を比較し、MNISTデータベースに制御ノイズレベルを挿入する人工環境において、それを深く研究するアプリケーションにおいて、この問題を動機付けている。
その結果, 誤りラベル数が多すぎる場合に分類器の性能が低下するため, 先行例の再サンプリングは, 新たな例を得るよりもますます重要となることがわかった。
さらに,学習過程でより低い評価値から高い評価値に切り替える方法と,得られたラベルの信頼度を近似するためにchi-square統計を用いる方法を提案する。
関連論文リスト
- Perceptual Quality-based Model Training under Annotator Label Uncertainty [15.015925663078377]
アノテーションは、アノテータラベルの不確実性と呼ばれるデータラベリング中に不一致を示す。
モデル学習のための複数のラベルを客観的に生成する新しい知覚品質ベースモデルトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-15T10:52:18Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - An Ensemble Noise-Robust K-fold Cross-Validation Selection Method for
Noisy Labels [0.9699640804685629]
大規模なデータセットには、ディープニューラルネットワーク(DNN)によって記憶されるような、ラベルのずれたサンプルが含まれている傾向があります。
本稿では, ノイズデータからクリーンなサンプルを効果的に選択するために, アンサンブルノイズ・ロバスト K-fold Cross-Validation Selection (E-NKCVS) を提案する。
我々は,ラベルが手動で異なる雑音比で破損した様々な画像・テキスト分類タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T02:14:52Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Importance Reweighting for Biquality Learning [0.0]
本稿では,弱視学習のオリジナル,包括的視点を提案する。
その結果、あらゆる種類のラベルノイズに対処できる汎用的なアプローチが考案された。
本稿では、信頼できないデータセットの非破壊例を識別できる新しい再検討手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T15:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。