論文の概要: Selective Labeling with False Discovery Rate Control
- arxiv url: http://arxiv.org/abs/2510.14581v1
- Date: Thu, 16 Oct 2025 11:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.831812
- Title: Selective Labeling with False Discovery Rate Control
- Title(参考訳): 偽発見率制御による選択的ラベリング
- Authors: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei,
- Abstract要約: 我々は、AI予測を確実に信頼できるインスタンスを識別する新しい方法であるtextbfConformal Labelingを紹介する。
これは、選択されたサブセット内の誤ったラベルの割合である偽発見率(FDR)を制御することで達成される。
特に,AIモデルの予測信頼度と,AIモデルの誤ラベルによる校正インスタンスの信頼度を比較することで,各テストインスタンスに対してコンフォーマルな$p$-valueを構築する。
- 参考スコア(独自算出の注目度): 18.821115689561253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.
- Abstract(参考訳): 大規模なデータセットの高品質なラベルを取得するのはコストがかかるため、人間の専門家による大量のアノテーションが必要になる。
AIモデルはラベルを予測することでコスト効率の良い代替手段を提供するが、ラベルの品質は避けられないラベル付けエラーによって損なわれる。
既存の方法は、AIがサブセットをラベル付けし、人間が残りをラベル付けすることで、この問題を軽減する。
しかし、これらの手法はAIに割り当てられたラベルの品質に関する理論的保証を欠いているため、しばしばAIラベルのサブセット内で許容できない高いラベル付けエラーを引き起こす。
そこで本稿では,AI予測を確実に信頼できるインスタンスを識別する新しい手法である‘textbf{Conformal Labeling} を紹介する。
これは、選択されたサブセット内の誤ったラベルの割合である偽発見率(FDR)を制御することで達成される。
特に,AIモデルの予測信頼度と,AIモデルの誤ラベルによる校正インスタンスの信頼度を比較することで,各テストインスタンスに対してコンフォーマルな$p$-valueを構築する。
次に、$p$-valueがデータ依存しきい値以下であるテストインスタンスを選択し、AIモデルの予測を信頼できるものとして認定する。
我々は、コンフォーマルラベルが名目レベル以下でFDRを制御することを理論的に保証し、AI指定ラベルの事前定義された割合が平均で正しいことを保証します。
画像やテキストのラベリング,LLM QAなど,多種多様なタスクにまたがる高出力FDR制御を実現する。
関連論文リスト
- Probably Approximately Correct Labels [25.45754016703746]
強力な事前訓練されたAIモデルは、データセットを自動的にラベル付けし、コストを節約する機会を提供する。
これらのモデルは正確性に保証がなく、手動ラベリングを非現実的に置き換える。
本稿では,事前学習したAIモデルを用いて,コスト効率と高品質なデータセットをキュレートする手法を提案する。
論文 参考訳(メタデータ) (2025-06-12T17:16:26Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Seq-UPS: Sequential Uncertainty-aware Pseudo-label Selection for
Semi-Supervised Text Recognition [21.583569162994277]
最も一般的なSSLアプローチの1つは擬似ラベル(PL)である。
PL法はノイズによって著しく劣化し、ノイズの多いラベルに過度に適合する傾向がある。
テキスト認識のための擬似ラベル生成と不確実性に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-31T02:21:02Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - Multi-class Probabilistic Bounds for Self-learning [13.875239300089861]
Pseudo-labelingはエラーを起こしやすいため、ラベルなしのトレーニングデータにノイズのあるラベルを追加するリスクがある。
本稿では,多クラス分類シナリオにおける自己学習を部分的にラベル付きデータで分析する確率的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:57:37Z) - Multi-Label Gold Asymmetric Loss Correction with Single-Label Regulators [6.129273021888717]
本稿では,単一ラベルレギュレータ(GALC-SLR)を用いたGold Asymmetric Loss Correctionを提案する。
GALC-SLRは、単一ラベルサンプルを用いてノイズ混乱行列を推定し、推定された混乱行列を介して非対称な損失補正を構築し、雑音ラベルへの過度な適合を避ける。
実験結果から,本手法は,全ての汚損レベルにおいて,最先端の非対称損失マルチラベル分類器よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-08-04T12:57:29Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。