Fugu-MT 論文翻訳(概要): No Free Lunch: Non-Asymptotic Analysis of Prediction-Powered Inference

論文の概要: No Free Lunch: Non-Asymptotic Analysis of Prediction-Powered Inference

arxiv url: http://arxiv.org/abs/2505.20178v1
Date: Mon, 26 May 2025 16:18:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 19:27:26.935206
Title: No Free Lunch: Non-Asymptotic Analysis of Prediction-Powered Inference
Title（参考訳）: No Free Lunch:予測パワー推論の非漸近解析
Authors: Pranav Mani, Peng Xu, Zachary C. Lipton, Michael Oberst,
Abstract要約: 平均推定問題に対して,PPI++の推定誤差を正確に有限サンプル解析する。特に、PPI++は、擬似標準と金標準の相関が一定のレベル以上である場合にのみ、パフォーマンスが向上する。実験では,PPI++の単一サンプルとサンプル分割型間のトレードオフに関する知見を解説し,提示する。
参考スコア（独自算出の注目度）: 45.17143284735701
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prediction-Powered Inference (PPI) is a popular strategy for combining gold-standard and possibly noisy pseudo-labels to perform statistical estimation. Prior work has shown an asymptotic "free lunch" for PPI++, an adaptive form of PPI, showing that the *asymptotic* variance of PPI++ is always less than or equal to the variance obtained from using gold-standard labels alone. Notably, this result holds *regardless of the quality of the pseudo-labels*. In this work, we demystify this result by conducting an exact finite-sample analysis of the estimation error of PPI++ on the mean estimation problem. We give a "no free lunch" result, characterizing the settings (and sample sizes) where PPI++ has provably worse estimation error than using gold-standard labels alone. Specifically, PPI++ will outperform if and only if the correlation between pseudo- and gold-standard is above a certain level that depends on the number of labeled samples ($n$). In some cases our results simplify considerably: For Gaussian data, the correlation must be at least $1/\sqrt{n - 2}$ in order to see improvement, and a similar result holds for binary labels. In experiments, we illustrate that our theoretical findings hold on real-world datasets, and give insights into trade-offs between single-sample and sample-splitting variants of PPI++.
Abstract（参考訳）: 予測パワー推論(英: Prediction-Powered Inference, PPI)は、統計的推定を行うために、ゴールドスタンダードとノイズの多い擬似ラベルを組み合わせる一般的な戦略である。 PPI++ の適応形式である PPI++ の漸近的な「無料ランチ」は、PPI++ の *asymptotic* 分散は常にゴールドスタンダードラベルのみを用いて得られる分散に等しいことを示している。特に、この結果は、擬ラベルの質によらず、*である。本研究では,PPI++の平均推定問題に対して,PPI++の推定誤差を正確に有限サンプル解析することにより,この結果をデミストする。 PPI++がゴールド標準ラベルのみを使用する場合よりも、推定誤差が著しく低い設定(とサンプルサイズ)を特徴付ける「無料ランチなし」の結果が得られます。特に、PPI++は、擬似標準と金標準の相関がラベル付きサンプルの数(n$)に依存する一定のレベル以上である場合にのみ、パフォーマンスが向上する。ガウスデータの場合、相関は改善を見極めるために少なくとも1/\sqrt{n - 2}$でなければならない。実験では,実世界のデータセットを理論的に解析し,単一サンプルとサンプル分割型のPPI++とのトレードオフについて考察する。

関連論文リスト

Stable Thompson Sampling: Valid Inference via Variance Inflation [1.6385815610837167]
我々はトンプソンサンプリング型アルゴリズムを用いてデータを収集する際の統計的推測の問題を考える。我々は,後方分散を対数係数で膨らませる,安定トンプソンサンプリング(Stable Thompson Sampling)と呼ばれるTSの変種を提案し,解析する。
論文参考訳（メタデータ） (2025-05-29T09:11:42Z)
Regression for the Mean: Auto-Evaluation and Inference with Few Labels through Post-hoc Regression [4.813376208491175]
Prediction Powered Inference (PPI)フレームワークは、大量の擬似ラベル付きデータと、実際の高品質なラベルを持つ小さなサンプルの両方を活用する方法を提供する。ラベル付きデータが不足すると、PPI++メソッドは古典的推論よりもさらにパフォーマンスが良くなる。本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-19T17:17:46Z)
Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。スコアの累積分布関数(CDF)を柔軟に推定する。提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文参考訳（メタデータ） (2024-11-04T14:29:02Z)
Uncertainty Quantification of MLE for Entity Ranking with Covariates [3.2839905453386162]
本稿では,ペア比較に基づくランキング問題の統計的推定と推定について検討する。我々は、有名なBradley-Terry-Luceモデルを拡張した新しいモデルCAREモデルを提案する。我々は、スパース比較グラフの下で、$alpha_i*_i=1n$と$beta*$の最大確率推定器を導出する。大規模数値研究による理論結果の検証と相互資金保有データセットへの適用について検討する。
論文参考訳（メタデータ） (2022-12-20T02:28:27Z)
Beyond Invariance: Test-Time Label-Shift Adaptation for Distributions with "Spurious" Correlations [44.99833362998488]
テスト時のデータ分散の変化は、予測モデルのパフォーマンスに有害な影響を及ぼす可能性がある。本研究では,未ラベルサンプルに適用したEMを用いて,共同分布の$p(y, z)$の変化に適応するテストタイムラベルシフト補正を提案する。
論文参考訳（メタデータ） (2022-11-28T18:52:33Z)
How Does Pseudo-Labeling Affect the Generalization Error of the Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文参考訳（メタデータ） (2022-10-15T04:11:56Z)
Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文参考訳（メタデータ） (2021-10-25T12:50:26Z)
SLOE: A Faster Method for Statistical Inference in High-Dimensional Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文参考訳（メタデータ） (2021-03-23T17:48:56Z)
The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d. 形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文参考訳（メタデータ） (2020-12-31T18:24:41Z)
Computationally and Statistically Efficient Truncated Regression [36.3677715543994]
計算的かつ統計的に効率的な線形回帰の古典的問題に対する推定器を提供する。提案手法では, トランキャット標本の負の対数類似度に代わることなく, プロジェクテッド・Descent Gradient (PSGD) を用いて推定する。本稿では,SGDが単一層ニューラルネットワークの雑音活性化関数のパラメータを学習することを示す。
論文参考訳（メタデータ） (2020-10-22T19:31:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。