論文の概要: The Computational Curse of Big Data for Bayesian Additive Regression Trees: A Hitting Time Analysis
- arxiv url: http://arxiv.org/abs/2406.19958v1
- Date: Fri, 28 Jun 2024 14:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:30:41.080478
- Title: The Computational Curse of Big Data for Bayesian Additive Regression Trees: A Hitting Time Analysis
- Title(参考訳): ベイジアン付加回帰木に対するビッグデータの計算曲線:隠れ時間解析
- Authors: Yan Shuo Tan, Omer Ronen, Theo Saarinen, Bin Yu,
- Abstract要約: BARTサンプルは、しばしばゆっくり収束し、他の研究者による経験的観察を確認する。
n$が増加するにつれて、近似的なBART後部は、正確な後部とますます異なる。
- 参考スコア(独自算出の注目度): 8.36826153664925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian Additive Regression Trees (BART) is a popular Bayesian non-parametric regression model that is commonly used in causal inference and beyond. Its strong predictive performance is supported by theoretical guarantees that its posterior distribution concentrates around the true regression function at optimal rates under various data generative settings and for appropriate prior choices. In this paper, we show that the BART sampler often converges slowly, confirming empirical observations by other researchers. Assuming discrete covariates, we show that, while the BART posterior concentrates on a set comprising all optimal tree structures (smallest bias and complexity), the Markov chain's hitting time for this set increases with $n$ (training sample size), under several common data generative settings. As $n$ increases, the approximate BART posterior thus becomes increasingly different from the exact posterior (for the same number of MCMC samples), contrasting with earlier concentration results on the exact posterior. This contrast is highlighted by our simulations showing worsening frequentist undercoverage for approximate posterior intervals and a growing ratio between the MSE of the approximate posterior and that obtainable by artificially improving convergence via averaging multiple sampler chains. Finally, based on our theoretical insights, possibilities are discussed to improve the BART sampler convergence performance.
- Abstract(参考訳): Bayesian Additive Regression Trees (BART) は、因果推論などに使われる一般的なベイズ的非パラメトリック回帰モデルである。
その強い予測性能は、その後続分布が、様々なデータ生成条件の下で最適な速度で真の回帰関数に集中し、適切な事前選択を行うという理論的な保証によって支えられている。
本稿では,他の研究者による経験的観察を裏付けるとともに,BARTサンプリング装置の収束が遅いことを示す。
離散共変数を仮定すると、BARTはすべての最適な木構造(最も小さなバイアスと複雑さ)からなる集合に集中するが、マルコフ連鎖のヒット時間は、いくつかの共通データ生成設定の下で、$n$(トレーニングサンプルサイズ)に増加する。
したがって、n$が増加するにつれて、近似的なBART後部は正確な後部(MCMCサンプルの数と同じ)と次第に異なるようになり、正確な後部における以前の濃度結果と対比される。
このコントラストは,複数のサンプルチェーンを平均化することにより収束性を向上させることで,近似後続区間の頻繁な潜伏と,近似後続区間のMSEとの比の増大を示すシミュレーションによって強調された。
最後に、我々の理論的知見に基づいて、BARTサンプリング器収束性能を改善する可能性について論じる。
関連論文リスト
- Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Batch and match: black-box variational inference with a score-based divergence [26.873037094654826]
スコアに基づく発散に基づくブラックボックス変分推論(BBVI)の代替手法としてバッチ・アンド・マッチ(BaM)を提案する。
ELBO に基づく BBVI の先行実装よりもBaM の収束度が低いことを示す。
論文 参考訳(メタデータ) (2024-02-22T18:20:22Z) - Co-data Learning for Bayesian Additive Regression Trees [0.0]
本稿では,コデータから木間関係の予測モデルを構築することを提案する。
提案手法は複数のデータ型を同時に扱うことができる。
Co-dataは、大きなB細胞リンパ腫の予後を拡散させる用途における予測を強化する。
論文 参考訳(メタデータ) (2023-11-16T16:14:39Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Theory of Posterior Concentration for Generalized Bayesian Additive
Regression Trees [0.685316573653194]
ベイズ木とその加法的アンサンブルに対する一般化された枠組みについて述べる。
応答分布について十分な条件を導出し, 後部が最小マックスで集中する条件を対数係数まで導出する。
論文 参考訳(メタデータ) (2023-04-25T00:52:48Z) - A Mixing Time Lower Bound for a Simplified Version of BART [5.149859291357858]
我々は,BARTの簡易バージョンに対する混合時間に関する第1の下位境界を提供する。
混合時間とデータ点数との新たな接続にインスパイアされ、BART上で厳密なシミュレーションを行う。
我々は,BARTの混合時間がデータ点数とともに増加することを定性的に示す。
論文 参考訳(メタデータ) (2022-10-17T18:45:36Z) - Adversarial Bayesian Simulation [0.9137554315375922]
我々は,敵対的ネットワーク(GAN)と敵対的変動ベイズに基づく深いニューラル暗黙的サンプリング器を用いてベイズ近似計算(ABC)を橋渡しする。
我々は,逆最適化問題を解くことにより,後部を直接対象とするベイズ型GANを開発した。
本研究は, ニューラルネットワーク生成器と識別器において, 真と近似後部の典型的な総変動距離が0に収束することを示す。
論文 参考訳(メタデータ) (2022-08-25T14:18:39Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Instance-Optimal Compressed Sensing via Posterior Sampling [101.43899352984774]
後部サンプリング推定器がほぼ最適回復保証を達成できることを示す。
本稿では,Langevin dynamics を用いた深部生成前駆体の後方サンプリング推定器を実装し,MAP よりも精度の高い推定値が得られることを実証的に見出した。
論文 参考訳(メタデータ) (2021-06-21T22:51:56Z) - What Are Bayesian Neural Network Posteriors Really Like? [63.950151520585024]
ハミルトニアンモンテカルロは、標準およびディープアンサンブルよりも大きな性能向上を達成できることを示す。
また,深部分布は標準SGLDとHMCに類似しており,標準変動推論に近いことが示された。
論文 参考訳(メタデータ) (2021-04-29T15:38:46Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。