論文の概要: Inductive Conformal Prediction under Data Scarcity: Exploring the Impacts of Nonconformity Measures
- arxiv url: http://arxiv.org/abs/2410.09894v1
- Date: Sun, 13 Oct 2024 16:07:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:23:08.554924
- Title: Inductive Conformal Prediction under Data Scarcity: Exploring the Impacts of Nonconformity Measures
- Title(参考訳): データスカシティによるインダクティブ・コンフォーマル予測:非コンフォーマル対策の影響を探る
- Authors: Yuko Kato, David M. J. Tax, Marco Loog,
- Abstract要約: 本研究は, 帰納的共形予測において, 有効性および効率性の観点から, 種々の非整合性尺度の性能を評価することを目的とする。
焦点は小さなデータセットであり、多くの現実世界のアプリケーションでは依然として一般的な設定である。
- 参考スコア(独自算出の注目度): 16.884217502333463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conformal prediction, which makes no distributional assumptions about the data, has emerged as a powerful and reliable approach to uncertainty quantification in practical applications. The nonconformity measure used in conformal prediction quantifies how a test sample differs from the training data and the effectiveness of a conformal prediction interval may depend heavily on the precise measure employed. The impact of this choice has, however, not been widely explored, especially when dealing with limited amounts of data. The primary objective of this study is to evaluate the performance of various nonconformity measures (absolute error-based, normalized absolute error-based, and quantile-based measures) in terms of validity and efficiency when used in inductive conformal prediction. The focus is on small datasets, which is still a common setting in many real-world applications. Using synthetic and real-world data, we assess how different characteristics -- such as dataset size, noise, and dimensionality -- can affect the efficiency of conformal prediction intervals. Our results show that although there are differences, no single nonconformity measure consistently outperforms the others, as the effectiveness of each nonconformity measure is heavily influenced by the specific nature of the data. Additionally, we found that increasing dataset size does not always improve efficiency, suggesting the importance of fine-tuning models and, again, the need to carefully select the nonconformity measure for different applications.
- Abstract(参考訳): データについて分布的な仮定をしないコンフォーマル予測は、実用上の不確実性定量化に対する強力で信頼性の高いアプローチとして現れている。
整合予測に使用される非整合性測定は、試験サンプルがトレーニングデータとどのように異なるかを定量化し、整合性予測間隔の有効性は、使用する正確な測定値に大きく依存する可能性がある。
しかし、この選択の影響は、特に限られた量のデータを扱う場合、広く研究されていない。
本研究の主な目的は, 帰納的共形予測において, 様々な非整合性測定(絶対誤差ベース, 正規化絶対誤差ベース, 量子化値ベース)の性能を有効性と有効性の観点から評価することである。
焦点は小さなデータセットであり、多くの現実世界のアプリケーションでは依然として一般的な設定である。
合成データと実世界のデータを用いて、データセットのサイズ、ノイズ、次元といった異なる特徴が、共形予測間隔の効率にどのように影響するかを評価する。
以上の結果から,各非整合性尺度の有効性はデータの性質に大きく影響していることから,非整合性尺度は相違はあるものの,どの非整合性尺度も他の指標よりも一貫して優れていることが示唆された。
さらに,データセットのサイズが大きくなると必ずしも効率が向上するわけではなく,微調整モデルの重要性が示唆され,また,異なるアプリケーションに対する非整合性尺度を慎重に選択する必要が生じた。
関連論文リスト
- Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - Benchmark Transparency: Measuring the Impact of Data on Evaluation [6.307485015636125]
6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。
データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。
その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
論文 参考訳(メタデータ) (2024-03-31T17:33:43Z) - Valid causal inference with unobserved confounding in high-dimensional
settings [0.0]
半パラメトリックな推論が、観測されていない共同創設者や高次元ニュアンスモデルの存在下でどのように得られるかを示す。
本研究では、観測不能な共振を許容する不確実区間を提案し、観測不能な共振の量が小さい場合、その結果の推論が有効であることを示す。
論文 参考訳(メタデータ) (2024-01-12T13:21:20Z) - Perturbation-based Effect Measures for Compositional Data [3.9543275888781224]
構成的特徴に対する既存の効果測定は、現代の多くの応用には不十分である。
両問題に対処する仮説データ摂動に基づくフレームワークを提案する。
摂動依存再パラメータ化を導出することにより, 摂動効果の平均を効率的に推定できることを示す。
論文 参考訳(メタデータ) (2023-11-30T12:27:15Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Impact of Medical Data Imprecision on Learning Results [9.379890125442333]
医療応用におけるインプレクションが予測結果に与える影響について検討した。
トレーニング済みのモデルを用いて、患者の甲状腺機能亢進症の将来状態を予測する。
論文 参考訳(メタデータ) (2020-07-24T06:54:57Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。