論文の概要: Probably Approximately Correct Labels
- arxiv url: http://arxiv.org/abs/2506.10908v2
- Date: Sun, 05 Oct 2025 17:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.169257
- Title: Probably Approximately Correct Labels
- Title(参考訳): おそらくほぼ正しいラベル
- Authors: Emmanuel J. Candès, Andrew Ilyas, Tijana Zrnic,
- Abstract要約: 強力な事前訓練されたAIモデルは、データセットを自動的にラベル付けし、コストを節約する機会を提供する。
これらのモデルは正確性に保証がなく、手動ラベリングを非現実的に置き換える。
本稿では,事前学習したAIモデルを用いて,コスト効率と高品質なデータセットをキュレートする手法を提案する。
- 参考スコア(独自算出の注目度): 25.45754016703746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining high-quality labeled datasets is often costly, requiring either human annotation or expensive experiments. In theory, powerful pre-trained AI models provide an opportunity to automatically label datasets and save costs. Unfortunately, these models come with no guarantees on their accuracy, making wholesale replacement of manual labeling impractical. In this work, we propose a method for leveraging pre-trained AI models to curate cost-effective and high-quality datasets. In particular, our approach results in probably approximately correct labels: with high probability, the overall labeling error is small. Our method is nonasymptotically valid under minimal assumptions on the dataset or the AI model being studied, and thus enables rigorous yet efficient dataset curation using modern AI models. We demonstrate the benefits of the methodology through text annotation with large language models, image labeling with pre-trained vision models, and protein folding analysis with AlphaFold.
- Abstract(参考訳): 高品質なラベル付きデータセットを持つことは、人間のアノテーションや高価な実験を必要とするため、しばしばコストがかかる。
理論的には、強力な事前訓練されたAIモデルは、データセットを自動的にラベル付けし、コストを節約する機会を提供する。
残念ながら、これらのモデルには精度の保証がないため、手動ラベリングの全面的な置き換えは現実的ではない。
本研究では,事前学習したAIモデルを用いて,コスト効率と高品質なデータセットをキュレートする手法を提案する。
特に,本手法では,ほぼ正しいラベルが得られ,高い確率で全体のラベル付け誤差が小さくなる。
我々の手法は、研究中のデータセットやAIモデルについて最小限の仮定で漸近的に有効であり、現代のAIモデルを用いた厳密で効率的なデータセットキュレーションを可能にする。
提案手法の利点は,大規模な言語モデルによるテキストアノテーション,事前学習された視覚モデルによる画像ラベリング,AlphaFoldによるタンパク質折り畳み解析などである。
関連論文リスト
- Selective Labeling with False Discovery Rate Control [18.821115689561253]
我々は、AI予測を確実に信頼できるインスタンスを識別する新しい方法であるtextbfConformal Labelingを紹介する。
これは、選択されたサブセット内の誤ったラベルの割合である偽発見率(FDR)を制御することで達成される。
特に,AIモデルの予測信頼度と,AIモデルの誤ラベルによる校正インスタンスの信頼度を比較することで,各テストインスタンスに対してコンフォーマルな$p$-valueを構築する。
論文 参考訳(メタデータ) (2025-10-16T11:39:00Z) - Learning from Ambiguous Data with Hard Labels [34.06499138206804]
現実世界のデータには、共通のシングル・ハード・ラベル・アノテーションのパラダイムが無視する固有の曖昧さがしばしば含まれている。
硬いラベルを持つあいまいなデータを用いた標準的なトレーニングは、過度に自信過剰なモデルを生み出し、その結果、一般化が不十分になる可能性がある。
我々はこの問題を軽減するために、Quantized Label Learning(QLL)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-03T14:54:49Z) - Label Critic: Design Data Before Models [7.142066343369597]
ペア比較によりラベル品質を評価できるラベル批判という自動ツールを開発した。
Best-AIラベルが十分に正確であれば(ボディ構造によって81%)、データセットのゴールドスタンダードアノテーションとして直接採用されます。
Label Criticは、1つのAIラベルのラベル品質を71.8%の精度でチェックできる。
論文 参考訳(メタデータ) (2024-11-05T02:50:47Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - How many labelers do you have? A closer look at gold-standard labels [10.637125300701795]
我々は、非集約ラベル情報へのアクセスによって、ゴールドスタンダードラベルよりも、トレーニングの適格化がより実現可能であることを示す。
我々は,非アグリゲートラベルが学習性能を改善することを含む,実世界のデータセットの予測を行う。
論文 参考訳(メタデータ) (2022-06-24T02:33:50Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文 参考訳(メタデータ) (2022-02-03T18:04:54Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - DEAL: Deep Evidential Active Learning for Image Classification [0.0]
アクティブラーニング(AL)は、限られたラベル付きデータの問題を緩和するためのアプローチである。
CNNの最近のAL手法は、ラベル付けするインスタンスの選択に異なる解決策を提案する。
本稿では,ラベルのないデータから高い予測不確かさを捕捉して効率よく学習する新しいALアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-22T11:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。