論文の概要: Probably Approximately Correct Labels
- arxiv url: http://arxiv.org/abs/2506.10908v1
- Date: Thu, 12 Jun 2025 17:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.861059
- Title: Probably Approximately Correct Labels
- Title(参考訳): おそらくほぼ正しいラベル
- Authors: Emmanuel J. Candès, Andrew Ilyas, Tijana Zrnic,
- Abstract要約: 本稿では,ラベル付きデータセットをよりコスト効率よく構築するために,事前学習されたモデルからAI予測を付した「エキスパート」ラベルを補足する手法を提案する。
提案手法の利点は,大規模な言語モデルによるテキストアノテーション,事前学習された視覚モデルによる画像ラベリング,AlphaFoldによるタンパク質折り畳み解析などである。
- 参考スコア(独自算出の注目度): 21.37133083355433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining high-quality labeled datasets is often costly, requiring either extensive human annotation or expensive experiments. We propose a method that supplements such "expert" labels with AI predictions from pre-trained models to construct labeled datasets more cost-effectively. Our approach results in probably approximately correct labels: with high probability, the overall labeling error is small. This solution enables rigorous yet efficient dataset curation using modern AI models. We demonstrate the benefits of the methodology through text annotation with large language models, image labeling with pre-trained vision models, and protein folding analysis with AlphaFold.
- Abstract(参考訳): 高品質なラベル付きデータセットの取得にはコストがかかることが多い。
本稿では、事前訓練されたモデルからAI予測を付加した「エキスパート」ラベルを補足してラベル付きデータセットを構築する手法を提案する。
提案手法では, ほぼ正しいラベルが得られ, 高い確率で全体のラベル付け誤差が小さくなる。
このソリューションは、現代AIモデルを使用した厳格で効率的なデータセットキュレーションを可能にする。
提案手法の利点は,大規模な言語モデルによるテキストアノテーション,事前学習された視覚モデルによる画像ラベリング,AlphaFoldによるタンパク質折り畳み解析などである。
関連論文リスト
- Label Critic: Design Data Before Models [7.142066343369597]
ペア比較によりラベル品質を評価できるラベル批判という自動ツールを開発した。
Best-AIラベルが十分に正確であれば(ボディ構造によって81%)、データセットのゴールドスタンダードアノテーションとして直接採用されます。
Label Criticは、1つのAIラベルのラベル品質を71.8%の精度でチェックできる。
論文 参考訳(メタデータ) (2024-11-05T02:50:47Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - How many labelers do you have? A closer look at gold-standard labels [10.637125300701795]
我々は、非集約ラベル情報へのアクセスによって、ゴールドスタンダードラベルよりも、トレーニングの適格化がより実現可能であることを示す。
我々は,非アグリゲートラベルが学習性能を改善することを含む,実世界のデータセットの予測を行う。
論文 参考訳(メタデータ) (2022-06-24T02:33:50Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。