論文の概要: Distributional Random Forests for Complex Survey Designs on Reproducing Kernel Hilbert Spaces
- arxiv url: http://arxiv.org/abs/2512.08179v1
- Date: Tue, 09 Dec 2025 02:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.787414
- Title: Distributional Random Forests for Complex Survey Designs on Reproducing Kernel Hilbert Spaces
- Title(参考訳): カーネルヒルベルト空間再生のための複雑な測量設計のための分布ランダム林
- Authors: Yating Zou, Marcos Matabuena, Michael R. Kosorok,
- Abstract要約: 条件付き法則 $P(Y|X=mathbfx)$ と連続汎函数 $(P(Y|X=mathbfx))$ を局所コンパクトポーランド空間において値を取るときに推定する。
本稿では,複雑な設計特徴を取り入れた調査校正型分布ランダム林(SDRF)を提案する。
- 参考スコア(独自算出の注目度): 0.6554326244334866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study estimation of the conditional law $P(Y|X=\mathbf{x})$ and continuous functionals $Ψ(P(Y|X=\mathbf{x}))$ when $Y$ takes values in a locally compact Polish space, $X \in \mathbb{R}^p$, and the observations arise from a complex survey design. We propose a survey-calibrated distributional random forest (SDRF) that incorporates complex-design features via a pseudo-population bootstrap, PSU-level honesty, and a Maximum Mean Discrepancy (MMD) split criterion computed from kernel mean embeddings of Hájek-type (design-weighted) node distributions. We provide a framework for analyzing forest-style estimators under survey designs; establish design consistency for the finite-population target and model consistency for the super-population target under explicit conditions on the design, kernel, resampling multipliers, and tree partitions. As far as we are aware, these are the first results on model-free estimation of conditional distributions under survey designs. Simulations under a stratified two-stage cluster design provide finite sample performance and demonstrate the statistical error price of ignoring the survey design. The broad applicability of SDRF is demonstrated using NHANES: We estimate the tolerance regions of the conditional joint distribution of two diabetes biomarkers, illustrating how distributional heterogeneity can support subgroup-specific risk profiling for diabetes mellitus in the U.S. population.
- Abstract(参考訳): 条件付き法則 $P(Y|X=\mathbf{x})$ と連続汎函数 $(P(Y|X=\mathbf{x}))$ が局所コンパクトポーランド空間において値を取るとき、$X \in \mathbb{R}^p$ は複素サーベイ設計から生じる。
本稿では,Hájek型(設計重み付き)ノード分布の平均埋め込みをカーネルから計算した,擬似集団ブートストラップ,PSUレベルの正直性,最大平均離散性(MMD)分割基準を介し,複雑な設計特徴を組み込んだSDRF(Research-calibrated distributional random forest)を提案する。
本研究は, 森林型推定器を調査設計により解析し, 設計, カーネル, 再サンプリング, 木分割に関する明示的な条件下で, 有限人口目標に対する設計整合性と超人口目標に対するモデル整合性を確立するための枠組みを提供する。
私たちが知る限り、これらはサーベイデザインの下での条件分布のモデルフリー推定における最初の結果である。
層状2段クラスタ設計に基づくシミュレーションは, 有限サンプル性能を提供し, 調査設計を無視した統計的誤差価格を示す。
2つの糖尿病バイオマーカーの条件付き関節分布の許容領域を推定し、アメリカにおける糖尿病のサブグループ特異的リスクプロファイリングの分布不均一性がいかに支持できるかを考察した。
関連論文リスト
- Minimax Optimality of the Probability Flow ODE for Diffusion Models [8.15094483029656]
この研究は、決定論的ODEベースのサンプリングのための最初のエンドツーエンド理論フレームワークを開発する。
L2$のスコア誤差と関連する平均ジャコビアン誤差の両方を同時に制御するスムーズな正規化スコア推定器を提案する。
得られたサンプルは全変動距離, 変調対数係数において最小値が得られることを示す。
論文 参考訳(メタデータ) (2025-03-12T17:51:29Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Randomized Midpoint Method for Log-Concave Sampling under Constraints [5.548787731232499]
凸コンパクト集合上での対数凹分布のサンプリング問題について検討する。
本稿では,プロジェクション演算子の幅広いクラスを通した制約処理のための統一的近位フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:24:21Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Confidence and Uncertainty Assessment for Distributional Random Forests [1.2767281330110625]
分布ランダムフォレスト (DRF) は条件分布を推定するために最近導入されたランダムフォレストである。
条件平均処理効果、条件量子化、条件相関など、幅広いターゲットを推定するために使用できる。
DRFのアルゴリズムを特徴付け、ブートストラップ近似を開発する。
論文 参考訳(メタデータ) (2023-02-11T19:10:01Z) - Robust Estimation for Nonparametric Families via Generative Adversarial
Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。
我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。
技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文 参考訳(メタデータ) (2022-02-02T20:11:33Z) - GANs with Conditional Independence Graphs: On Subadditivity of
Probability Divergences [70.30467057209405]
GAN(Generative Adversarial Networks)は、データセットの基盤となる分布を学習するための現代的な手法である。
GANは、基礎となるディストリビューションに関する追加情報がないモデルフリーで設計されている。
本稿では,ベイズネット/MRFの近傍に単純な識別器群を用いたモデルベースGANの設計を提案する。
論文 参考訳(メタデータ) (2020-03-02T04:31:22Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。