論文の概要: Conformal Inference for Open-Set and Imbalanced Classification
- arxiv url: http://arxiv.org/abs/2510.13037v1
- Date: Tue, 14 Oct 2025 23:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.444225
- Title: Conformal Inference for Open-Set and Imbalanced Classification
- Title(参考訳): オープンセットとアンバランスな分類のためのコンフォーマル推論
- Authors: Tianmin Xie, Yanfei Zhou, Ziyi Liang, Stefano Favaro, Matteo Sesia,
- Abstract要約: 本稿では,高度不均衡条件とオープンセット条件の整列予測手法を提案する。
既存のアプローチでは有限で既知のラベル空間が必要であり、典型的にはランダムなサンプル分割を伴う。
我々は、新しいデータポイントが以前に見つからなかったクラスに属するかどうかをテストすることができる、新しいコンフォーマルなp-値の族を計算し、統合する。
- 参考スコア(独自算出の注目度): 17.863428471982967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a conformal prediction method for classification in highly imbalanced and open-set settings, where there are many possible classes and not all may be represented in the data. Existing approaches require a finite, known label space and typically involve random sample splitting, which works well when there is a sufficient number of observations from each class. Consequently, they have two limitations: (i) they fail to provide adequate coverage when encountering new labels at test time, and (ii) they may become overly conservative when predicting previously seen labels. To obtain valid prediction sets in the presence of unseen labels, we compute and integrate into our predictions a new family of conformal p-values that can test whether a new data point belongs to a previously unseen class. We study these p-values theoretically, establishing their optimality, and uncover an intriguing connection with the classical Good--Turing estimator for the probability of observing a new species. To make more efficient use of imbalanced data, we also develop a selective sample splitting algorithm that partitions training and calibration data based on label frequency, leading to more informative predictions. Despite breaking exchangeability, this allows maintaining finite-sample guarantees through suitable re-weighting. With both simulated and real data, we demonstrate our method leads to prediction sets with valid coverage even in challenging open-set scenarios with infinite numbers of possible labels, and produces more informative predictions under extreme class imbalance.
- Abstract(参考訳): 本稿では,高不均衡かつオープンな設定において,クラスが多数存在し,すべてのクラスがデータに表現できるという,整合予測手法を提案する。
既存のアプローチでは、有限で既知のラベル空間を必要とし、通常ランダムなサンプル分割を伴い、各クラスから十分な数の観測がある場合、うまく機能する。
その結果、2つの制限がある。
一 試験時に新しいラベルに遭遇したとき、適切なカバレッジを提供できないこと、
(二)それまでのラベルを予測する際には、過度に保守的になる可能性がある。
未確認ラベルの存在下で有効な予測セットを得るために、新しいデータポイントが以前に見つからなかったクラスに属しているかどうかを検証できる新しい共形p値の族を計算し、統合する。
我々はこれらのp値を理論的に研究し、その最適性を確立し、新しい種を観測する確率を測る古典的グッドチューリング推定器との興味深い関係を明らかにする。
不均衡なデータをより効率的に利用するために、ラベル周波数に基づいてトレーニングと校正データを分割する選択的なサンプル分割アルゴリズムを開発し、より情報的な予測を行う。
交換性は損なわれるが、適切な再重み付けによって有限サンプル保証を維持することができる。
シミュレーションデータと実データの両方を用いて、無限個のラベルを持つオープンセットシナリオにおいても有効なカバレッジを持つ予測セットを導出し、極端なクラス不均衡の下でより情報的な予測を行う。
関連論文リスト
- Sparse Activations as Conformal Predictors [19.298282860984116]
共形予測と疎ソフトマックス様変換の新たな関連性を見いだす。
本研究では, キャリブレーションプロセスが広く使用されている温度スケーリング法に対応するように, 分類のための新しい非整合性スコアを導入する。
提案手法は, 適用範囲, 効率, 適応性の観点から, 競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2025-02-20T17:53:41Z) - Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.92618442300405]
有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。
本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-17T12:01:56Z) - Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Augmented prediction of a true class for Positive Unlabeled data under selection bias [0.8594140167290099]
本稿では, 観測時刻をラベル付けした正のアンラベル(PU)データに対して, 新たな観測環境を提案する。
我々は、追加情報は予測に重要であると主張し、このタスクを"Augmented PU prediction"と呼んでいる。
このようなシナリオで経験的ベイズ則のいくつかの変種を導入し、それらの性能について検討する。
論文 参考訳(メタデータ) (2024-07-14T19:58:01Z) - PAC Prediction Sets Under Label Shift [52.30074177997787]
予測セットは、個々のラベルではなくラベルのセットを予測することによって不確実性を捉える。
ラベルシフト設定においてPAC保証付き予測セットを構築するための新しいアルゴリズムを提案する。
提案手法を5つのデータセットで評価する。
論文 参考訳(メタデータ) (2023-10-19T17:57:57Z) - Practical Adversarial Multivalid Conformal Prediction [27.179891682629183]
逐次予測のための一般的な共形予測法を提案する。
相手が選択したデータに対して、ターゲットの実証的カバレッジを保証する。
これは計算的に軽量であり、分割共形予測に匹敵する。
論文 参考訳(メタデータ) (2022-06-02T14:33:00Z) - Approximate Conditional Coverage via Neural Model Approximations [0.030458514384586396]
実験的に信頼性の高い近似条件付きカバレッジを得るためのデータ駆動手法を解析する。
我々は、限界範囲のカバレッジ保証を持つ分割型代替案で、実質的な(そして、そうでない)アンダーカバーの可能性を実証する。
論文 参考訳(メタデータ) (2022-05-28T02:59:05Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。