論文の概要: Bayesian Semi-supervised Inference via a Debiased Modeling Approach
- arxiv url: http://arxiv.org/abs/2509.17385v1
- Date: Mon, 22 Sep 2025 06:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.241433
- Title: Bayesian Semi-supervised Inference via a Debiased Modeling Approach
- Title(参考訳): バイアスドモデリングによるベイズ半教師付き推論
- Authors: Gözde Sert, Abhishek Chakrabortty, Anirban Bhattacharya,
- Abstract要約: 半教師付き(SS)設定における推論は,近年,近年のビッグデータ問題との関連性が高まっているため,大きな注目を集めている。
SS設定における人口平均を推定するためのベイズ的手法を提案する。
- 参考スコア(独自算出の注目度): 1.2833734915643464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference in semi-supervised (SS) settings has gained substantial attention in recent years due to increased relevance in modern big-data problems. In a typical SS setting, there is a much larger-sized unlabeled data, containing only observations of predictors, and a moderately sized labeled data containing observations for both an outcome and the set of predictors. Such data naturally arises when the outcome, unlike the predictors, is costly or difficult to obtain. One of the primary statistical objectives in SS settings is to explore whether parameter estimation can be improved by exploiting the unlabeled data. We propose a novel Bayesian method for estimating the population mean in SS settings. The approach yields estimators that are both efficient and optimal for estimation and inference. The method itself has several interesting artifacts. The central idea behind the method is to model certain summary statistics of the data in a targeted manner, rather than the entire raw data itself, along with a novel Bayesian notion of debiasing. Specifying appropriate summary statistics crucially relies on a debiased representation of the population mean that incorporates unlabeled data through a flexible nuisance function while also learning its estimation bias. Combined with careful usage of sample splitting, this debiasing approach mitigates the effect of bias due to slow rates or misspecification of the nuisance parameter from the posterior of the final parameter of interest, ensuring its robustness and efficiency. Concrete theoretical results, via Bernstein--von Mises theorems, are established, validating all claims, and are further supported through extensive numerical studies. To our knowledge, this is possibly the first work on Bayesian inference in SS settings, and its central ideas also apply more broadly to other Bayesian semi-parametric inference problems.
- Abstract(参考訳): 半教師付き(SS)設定における推論は,近年,近年のビッグデータ問題との関連性が高まっているため,大きな注目を集めている。
典型的なSS設定では、予測器の観測のみを含む非常に大きなラベルなしデータと、結果と予測器のセットの両方に対する観測を含む中程度のラベル付きデータがある。
このようなデータは、結果が予測者とは異なり、コストがかかるか入手が難しいときに自然に発生する。
SS設定の主な統計的目的の1つは、未ラベルデータを利用してパラメータ推定を改善することができるかどうかを検討することである。
SS設定における人口平均を推定するためのベイズ的手法を提案する。
この手法は、推定と推定に効率的かつ最適である推定器を生成する。
メソッド自体は、いくつかの興味深いアーティファクトを持っています。
この手法の背景にある中心的な考え方は、生データそのものではなく、目的とする方法でデータの特定の要約統計をモデル化し、新しいベイズ的デバイアス(英語版)の概念をモデル化することである。
適切な要約統計の特定は、その推定バイアスを学習しながら、フレキシブルなニュアンス関数を通してラベル付けされていないデータを組み込む、人口の偏りの表現に決定的に依存する。
サンプリングスプリッティングの慎重な使用と組み合わせて、このデバイアス化手法は、最終パラメータの後方からのニュアンスパラメータの遅さや不特定によるバイアスの影響を軽減し、その堅牢性と効率性を確保する。
ベルンシュタイン-ヴォン・ミセスの定理による具体的な理論結果が確立され、全ての主張が検証され、より広範な数値研究によってさらに支持される。
我々の知る限り、これはSS設定におけるベイズ的推論に関する最初の研究であり、その中心的な考え方は他のベイズ的半パラメトリック推論問題にもより広く適用される。
関連論文リスト
- Optimal Debiased Inference on Privatized Data via Indirect Estimation and Parametric Bootstrap [12.65121513620053]
民営化されたデータに対する既存のパラメトリックブートストラップの使用は、クランプの効果を無視したり回避したりしていた。
本稿では,パラメータ値を連続的に推定するために間接推論手法を提案する。
本フレームワークは,信頼区間をよく校正したカバレッジで生成し,正しいI型誤差で仮説テストを行う。
論文 参考訳(メタデータ) (2025-07-14T19:12:16Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Bayesian Federated Inference for regression models based on non-shared multicenter data sets from heterogeneous populations [0.0]
回帰モデルでは、サンプルサイズは予測器の数に対して十分な大きさでなければならない。
異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。
別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。
このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。
論文 参考訳(メタデータ) (2024-02-05T11:10:27Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Provably Efficient Bayesian Optimization with Unknown Gaussian Process Hyperparameter Estimation [44.53678257757108]
目的関数の大域的最適値にサブ線形収束できる新しいBO法を提案する。
本手法では,BOプロセスにランダムなデータポイントを追加するために,マルチアームバンディット法 (EXP3) を用いる。
提案手法は, 様々な合成および実世界の問題に対して, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-12T03:35:45Z) - Balancing Unobserved Confounding with a Few Unbiased Ratings in Debiased
Recommendations [4.960902915238239]
本稿では,既存のデバイアス法に適用可能な理論的に保証されたモデル非依存バランス手法を提案する。
提案手法では, バイアスデータを用いて学習したモデルパラメータを補正し, バイアスデータのバランス係数を適応的に学習することで, バイアスデータを完全に活用する。
論文 参考訳(メタデータ) (2023-04-17T08:56:55Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文 参考訳(メタデータ) (2022-08-17T11:17:47Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。