論文の概要: Prediction-Augmented Trees for Reliable Statistical Inference
- arxiv url: http://arxiv.org/abs/2510.16937v1
- Date: Sun, 19 Oct 2025 17:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.214465
- Title: Prediction-Augmented Trees for Reliable Statistical Inference
- Title(参考訳): 信頼性のある統計的推論のための予測拡張木
- Authors: Vikram Kher, Argyris Oikonomou, Manolis Zampetakis,
- Abstract要約: 本研究では,科学的な発見に向けた統計的データ分析において,機械学習の予測を安全に利用する方法について検討する。
1)予測拡張残留木(PART)と(2)予測強化四分法(PAQ)の2つの新しい学習拡張予測手法を導入する。
- 参考スコア(独自算出の注目度): 8.522899925359056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable success of machine learning (ML) in predictive tasks has led scientists to incorporate ML predictions as a core component of the scientific discovery pipeline. This was exemplified by the landmark achievement of AlphaFold (Jumper et al. (2021)). In this paper, we study how ML predictions can be safely used in statistical analysis of data towards scientific discovery. In particular, we follow the framework introduced by Angelopoulos et al. (2023). In this framework, we assume access to a small set of $n$ gold-standard labeled samples, a much larger set of $N$ unlabeled samples, and a ML model that can be used to impute the labels of the unlabeled data points. We introduce two new learning-augmented estimators: (1) Prediction-Augmented Residual Tree (PART), and (2) Prediction-Augmented Quadrature (PAQ). Both estimators have significant advantages over existing estimators like PPI and PPI++ introduced by Angelopoulos et al. (2023) and Angelopoulos et al. (2024), respectively. PART is a decision-tree based estimator built using a greedy criterion. We first characterize PART's asymptotic distribution and demonstrate how to construct valid confidence intervals. Then we show that PART outperforms existing methods in real-world datasets from ecology, astronomy, and census reports, among other domains. This leads to estimators with higher confidence, which is the result of using both the gold-standard samples and the machine learning predictions. Finally, we provide a formal proof of the advantage of PART by exploring PAQ, an estimation that arises when considering the limit of PART when the depth its tree grows to infinity. Under appropriate assumptions in the input data we show that the variance of PAQ shrinks at rate of $O(N^{-1} + n^{-4})$, improving significantly on the $O(N^{-1}+n^{-1})$ rate of existing methods.
- Abstract(参考訳): 予測タスクにおける機械学習(ML)の顕著な成功により、科学者は科学的な発見パイプラインのコアコンポーネントとしてML予測を取り入れた。
これは、AlphaFold(Jumper et al (2021))の画期的な業績によって実証された。
本稿では,ML予測が科学的な発見に向けて,データの統計的解析にいかに安全に利用できるかを検討する。
特に、Angelopoulos et al (2023)によって導入されたフレームワークに従う。
このフレームワークでは、ゴールドスタンダードのラベル付きサンプルの小さなセット、さらに大きな$N$のラベルなしサンプルのセット、ラベルなしデータポイントのラベルをインプットするのに使用できるMLモデルへのアクセスを仮定する。
本研究では,(1)予測拡張残留木(PART)と(2)予測拡張四分法(PAQ)の2つの新しい学習拡張予測手法を提案する。
どちらの推定器も、Angelopoulos et al (2023) とAngelopoulos et al (2024) によって導入された PPI や PPI++ のような既存の推定器よりも大きな利点がある。
Partは、greedy criterionを使って構築された決定木ベースの推定器である。
まず、パートメントの漸近分布を特徴付け、有効な信頼区間を構築する方法を示す。
次に、Partは、エコロジー、天文学、国勢調査レポートなど、現実世界のデータセットにおける既存の手法よりも優れていることを示す。
これは、ゴールドスタンダードサンプルと機械学習予測の両方を使用した結果、信頼性の高い推定者につながる。
最後に、木が無限大に成長するときに、部分の極限を考えるときに生じる推定であるPAQを探索することで、部分の利点を公式に証明する。
入力データの適切な仮定の下では、PAQの分散は$O(N^{-1} + n^{-4})$で縮まり、既存のメソッドの$O(N^{-1}+n^{-1})$レートで大幅に改善されることを示す。
関連論文リスト
- Efficient distributional regression trees learning algorithms for calibrated non-parametric probabilistic forecasts [1.0108345815812638]
回帰の文脈では、条件平均を推定する代わりに、出力の予測間隔を生成することでこれを実現できる。
本稿では, WIS や CRPS の損失関数の確率回帰木を学習するための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:39:35Z) - Gaussian credible intervals in Bayesian nonparametric estimation of the unseen [7.54430260415628]
未確認種問題は、異なる種に属する個体の集団から、おそらく無限のサンプルを、ngeq1$と仮定する。
我々は,任意の$ngeq1$に対して,K_n,m$に対して大きな$m$信頼区間を導出する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T12:48:05Z) - SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric
Positive Definite Space [47.65912121120524]
本研究では,大規模データを扱う新しい生成モデルであるSPD-DDPMを提案する。
我々のモデルは、$y$を与えることなく、無条件で柔軟に$p(X)$を見積もることができる。
おもちゃのデータと実際のタクシーデータによる実験結果から、我々のモデルは無条件と無条件の両方のデータ分布に効果的に適合することが示された。
論文 参考訳(メタデータ) (2023-12-13T15:08:54Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Useful Confidence Measures: Beyond the Max Score [9.189382034558657]
最大スコアを超える情報に依存するいくつかの信頼度尺度を導出します。
アウト・オブ・ディストリビューション・データに基づいてモデルを評価する場合,信頼度測定値の最大値のみを用いて,信頼度を推定する手法が極めて最適であることを示す。
論文 参考訳(メタデータ) (2022-10-25T14:54:44Z) - Statistical Estimation of Confounded Linear MDPs: An Instrumental
Variable Approach [16.855269228087653]
観測可能な機器変数を持つMDPにおけるOPEの統計的性質について検討した。
楽器変数を用いた線形MDPの2段階推定器の統計的結果を示すのはこれが初めてである。
論文 参考訳(メタデータ) (2022-09-12T12:25:56Z) - Optimal Membership Inference Bounds for Adaptive Composition of Sampled
Gaussian Mechanisms [93.44378960676897]
トレーニングされたモデルとデータサンプルが与えられた場合、メンバシップ推論(MI)アタックは、サンプルがモデルのトレーニングセットにあるかどうかを予測する。
MI攻撃に対する一般的な対策は、モデルトレーニング中に差分プライバシー(DP)を利用して個々の事例の存在を隠蔽することである。
本稿では,MI攻撃を装着した相手のテキスト・アドバンテージのバウンダリを導出し,広く利用されているガウス機構の厳密性を示す。
論文 参考訳(メタデータ) (2022-04-12T22:36:56Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。