論文の概要: Semi-Supervised Hypothesis Testing by Betting on Predictions
- arxiv url: http://arxiv.org/abs/2605.28533v1
- Date: Wed, 27 May 2026 14:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.115023
- Title: Semi-Supervised Hypothesis Testing by Betting on Predictions
- Title(参考訳): 予測に賭けることによる半監督仮説テスト
- Authors: Yaniv Tenzer, Elad Tolochinsky, Yaniv Romano,
- Abstract要約: 本稿では、ラベルのないデータに対する予測を利用して、シーケンシャルな仮説テストのパワーを高めるテスト・バイ・ベッティング・フレームワークを提案する。
予測による推論を含むベースラインアプローチよりもパワーゲインを実証する。
- 参考スコア(独自算出の注目度): 17.34147279018477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a testing-by-betting framework that leverages predictions on unlabeled data to enhance the power of sequential hypothesis testing. Given limited samples from the joint distribution of $(X,Y)$, and additional unlabeled samples from the marginal of $X$, we ask how unlabeled data can be used to hypothesize about the distribution of $Y$, and the conditional distribution of $Y\mid X$. We introduce an e-statistic and use it to construct a sequential test. Under standard distributional assumptions -- label shift or concept shift -- we establish that the test is anytime valid. Furthermore, we show that for binary data, the e-statistic has non-trivial power. Crucially, our approach retains these properties even when the underlying predictions are inaccurate. Through simulations and applications to large language models evaluation, we demonstrate power gains over baseline approaches, including prediction-powered inference. These gains persist even with relatively limited unlabeled data and when predictions have low accuracy due to weak correlation between $X$ and $Y$.
- Abstract(参考訳): 本稿では、ラベルのないデータに対する予測を利用して、シーケンシャルな仮説テストのパワーを高めるテスト・バイ・ベッティング・フレームワークを提案する。
例えば、$(X,Y)$の関節分布からの限られたサンプルと、$X$の限界から得られたラベルなしサンプルが与えられた場合、ラベルなしデータは、$Y$の分布と$Y\mid X$の条件分布について仮説を立てるためにどのように使用できるのかを問う。
e-statisticを導入し、シーケンシャルなテストを構築するためにそれを使用します。
標準的な分散仮定 -- ラベルシフトやコンセプトシフト -- の下では、テストがいつでも有効であることを確立します。
さらに、バイナリデータに対して、電子統計は自明なパワーを持つことを示す。
重要なことに、我々のアプローチは、基礎となる予測が不正確な場合でも、これらの特性を保っている。
シミュレーションと大規模言語モデル評価への応用を通して,予測による推論を含むベースラインアプローチよりもパワーゲインを実証する。
これらの利得は、比較的限られたラベル付きデータや、$X$と$Y$の相関が弱いため、予測の精度が低い場合でも持続する。
関連論文リスト
- Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding [52.1068936424622]
治療が介入によって設定された場合、対象変数$Y$に対して、予測因果効果$E[Y|do(X)]$を推定する問題を考える。
選択バイアスや欠点のない設定では、$E[Y|do(X)] = E[Y|X]$ となる。
選択バイアスとコンバウンディングの両方を組み込んだフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T13:43:37Z) - Doubly Robust Conditional Independence Testing with Generative Neural Networks [8.323172773256449]
本稿では、第3の確率ベクトル$Z$を与えられた2つのジェネリックランダムベクトル$X$と$Y$の条件独立性をテストする問題に対処する。
条件分布を明示的に推定しない新しい非パラメトリック試験法を提案する。
論文 参考訳(メタデータ) (2024-07-25T01:28:59Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [65.21599711087538]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Sequential Predictive Two-Sample and Independence Testing [114.4130718687858]
逐次的非パラメトリック2サンプルテストと独立テストの問題点について検討する。
私たちは賭けによる(非パラメトリックな)テストの原則に基づいています。
論文 参考訳(メタデータ) (2023-04-29T01:30:33Z) - The out-of-sample $R^2$: estimation and inference [0.0]
2つの予測モデルの比較として、アウト・オブ・サンプルの$R2$を定義する。
我々は、$hatR2$の標準誤差を提供するために、データ分割推定の不確実性に関する最近の理論的進歩を利用する。
論文 参考訳(メタデータ) (2023-02-10T09:29:57Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Dimension-agnostic inference using cross U-statistics [33.17951971728784]
本稿では,サンプル分割と自己正規化とともに,既存のテスト統計の変分表現を用いた手法を提案する。
結果の統計学は、縮退したU統計を慎重に修正し、対角ブロックを落とし、対角ブロックを外したままにすると見なすことができる。
論文 参考訳(メタデータ) (2020-11-10T12:21:34Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。