論文の概要: Robust Conformal Outlier Detection under Contaminated Reference Data
- arxiv url: http://arxiv.org/abs/2502.04807v1
- Date: Fri, 07 Feb 2025 10:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:34.899978
- Title: Robust Conformal Outlier Detection under Contaminated Reference Data
- Title(参考訳): 汚染基準データに基づくロバスト整形外乱検出
- Authors: Meshi Bashari, Matteo Sesia, Yaniv Romano,
- Abstract要約: コンフォーマル予測は、機械学習予測を校正するための柔軟なフレームワークである。
異常値検出では、この校正はタイプIエラー率を制御するためにラベル付き不整値データの参照セットに依存する。
本稿では, 汚染がコンフォメーション法の有効性に与える影響を解析する。
- 参考スコア(独自算出の注目度): 20.864605211132663
- License:
- Abstract: Conformal prediction is a flexible framework for calibrating machine learning predictions, providing distribution-free statistical guarantees. In outlier detection, this calibration relies on a reference set of labeled inlier data to control the type-I error rate. However, obtaining a perfectly labeled inlier reference set is often unrealistic, and a more practical scenario involves access to a contaminated reference set containing a small fraction of outliers. This paper analyzes the impact of such contamination on the validity of conformal methods. We prove that under realistic, non-adversarial settings, calibration on contaminated data yields conservative type-I error control, shedding light on the inherent robustness of conformal methods. This conservativeness, however, typically results in a loss of power. To alleviate this limitation, we propose a novel, active data-cleaning framework that leverages a limited labeling budget and an outlier detection model to selectively annotate data points in the contaminated reference set that are suspected as outliers. By removing only the annotated outliers in this ``suspicious'' subset, we can effectively enhance power while mitigating the risk of inflating the type-I error rate, as supported by our theoretical analysis. Experiments on real datasets validate the conservative behavior of conformal methods under contamination and show that the proposed data-cleaning strategy improves power without sacrificing validity.
- Abstract(参考訳): コンフォーマル予測は、機械学習の予測を校正するための柔軟なフレームワークであり、分布のない統計的保証を提供する。
異常値検出では、この校正はタイプIエラー率を制御するためにラベル付き不整値データの参照セットに依存する。
しかし、完全にラベル付けされた不利な参照集合を得るのは非現実的であり、より現実的なシナリオは、少数の外れ値を含む汚染された参照集合にアクセスすることである。
本稿では,このような汚染がコンフォメーション法の有効性に与える影響を解析する。
現実的な非敵対的な条件下では、汚染されたデータの校正は保守的なタイプIエラー制御をもたらし、コンフォメーション法の本質的なロバスト性に光を当てる。
しかし、この保守性は典型的には権力の喪失をもたらす。
この制限を緩和するために,リミテッドなラベル付け予算と外れ値検出モデルを活用する,新しいアクティブなデータクリーニングフレームワークを提案し,オフ値として疑わしい汚染された参照セット内のデータポイントを選択的にアノテートする。
この `suspicious'' サブセットの注釈付き外れ値のみを除去することにより、我々は、理論解析によって支持されるタイプIエラー率のインフレリスクを軽減しつつ、効率よくパワーを高めることができる。
実データセットを用いた実験では, 汚染下でのコンフォメーション手法の保守的挙動を検証し, 有効性を犠牲にすることなく, 提案したデータクリーニング戦略がパワーを向上させることを示した。
関連論文リスト
- Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - Semi-Supervised Risk Control via Prediction-Powered Inference [14.890609936348277]
リスク制御予測セット(RCPS)は、任意の機械学習モデルの出力を変換し、厳密なエラー率制御で予測ルールを設計するツールである。
ラベルのないデータを利用してハイパーパラメータを厳格に調整する半教師付きキャリブレーション手法を導入する。
提案手法は予測駆動型推論フレームワーク上に構築され,リスク管理タスクに慎重に適合する。
論文 参考訳(メタデータ) (2024-12-15T13:00:23Z) - Adaptive Conformal Inference by Particle Filtering under Hidden Markov Models [8.505262415500168]
本稿では,この問題に対処するための粒子フィルタリング手法を活用する適応型共形推論フレームワークを提案する。
観測不能な隠れ状態に直接焦点をあてるのではなく、隠れ状態の実際の後部分布の近似として重み付き粒子を革新的に利用する。
論文 参考訳(メタデータ) (2024-11-03T13:15:32Z) - Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Towards Certification of Uncertainty Calibration under Adversarial Attacks [96.48317453951418]
攻撃はキャリブレーションを著しく損なう可能性を示し, 対向的摂動下でのキャリブレーションにおける最悪のキャリブレーション境界として認定キャリブレーションを提案する。
我々は,新しいキャリブレーション攻撃を提案し,テクスタディバーショナルキャリブレーショントレーニングによりモデルキャリブレーションを改善する方法を示す。
論文 参考訳(メタデータ) (2024-05-22T18:52:09Z) - Leave-One-Out-, Bootstrap- and Cross-Conformal Anomaly Detectors [0.0]
本研究では,異常検出のためのLeft-out-out-, bootstrap-, cross-conformalメソッドを正式に定義し,評価する。
我々は,再サンプリング・コンフォーマルな$p$-値を求める導出手法が,統計効率(全コンフォーマル)と計算効率(スプリット・コンフォーマル)の両立を図っていることを実証した。
論文 参考訳(メタデータ) (2024-02-26T08:22:40Z) - Adaptive conformal classification with noisy labels [22.33857704379073]
キャリブレーション試料のランダムなラベル汚染に自動的に適応できる分類タスクに対する新しいコンフォメーション予測手法を開発した。
これは、ラベル汚染の有無で標準共形推論によって影響を受ける効果的なカバレッジインフレーションを正確に評価することで可能となる。
提案手法の利点は、広範囲なシミュレーションと、CIFAR-10H画像データセットを用いたオブジェクト分類への応用によって実証される。
論文 参考訳(メタデータ) (2023-09-10T17:35:43Z) - Approximate Conditional Coverage via Neural Model Approximations [0.030458514384586396]
実験的に信頼性の高い近似条件付きカバレッジを得るためのデータ駆動手法を解析する。
我々は、限界範囲のカバレッジ保証を持つ分割型代替案で、実質的な(そして、そうでない)アンダーカバーの可能性を実証する。
論文 参考訳(メタデータ) (2022-05-28T02:59:05Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - RATT: Leveraging Unlabeled Data to Guarantee Generalization [96.08979093738024]
ラベルのないデータを利用して一般化境界を生成する手法を紹介します。
境界が0-1経験的リスク最小化に有効であることを証明します。
この作業は、見えないラベル付きデータが利用できない場合でも、ディープネットの一般化を証明するためのオプションを実践者に提供します。
論文 参考訳(メタデータ) (2021-05-01T17:05:29Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。