論文の概要: Diffusion-Driven High-Dimensional Variable Selection
- arxiv url: http://arxiv.org/abs/2508.13890v1
- Date: Tue, 19 Aug 2025 14:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.965074
- Title: Diffusion-Driven High-Dimensional Variable Selection
- Title(参考訳): 拡散駆動型高次元可変選択
- Authors: Minjie Wang, Xiaotong Shen, Wei Pan,
- Abstract要約: 本稿では,高忠実度合成データを生成する拡散モデルの能力を生かした再サンプル集約フレームワークを提案する。
提案手法は軽微な仮定の下で一貫した選択であることを示す。
本手法は,変数選択手法を改良し,統計的に厳密な解析を行うためのツールキットを拡充する。
- 参考スコア(独自算出の注目度): 6.993247097440294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variable selection for high-dimensional, highly correlated data has long been a challenging problem, often yielding unstable and unreliable models. We propose a resample-aggregate framework that exploits diffusion models' ability to generate high-fidelity synthetic data. Specifically, we draw multiple pseudo-data sets from a diffusion model fitted to the original data, apply any off-the-shelf selector (e.g., lasso or SCAD), and store the resulting inclusion indicators and coefficients. Aggregating across replicas produces a stable subset of predictors with calibrated stability scores for variable selection. Theoretically, we show that the proposed method is selection consistent under mild assumptions. Because the generative model imports knowledge from large pre-trained weights, the procedure naturally benefits from transfer learning, boosting power when the observed sample is small or noisy. We also extend the framework of aggregating synthetic data to other model selection problems, including graphical model selection, and statistical inference that supports valid confidence intervals and hypothesis tests. Extensive simulations show consistent gains over the lasso, stability selection, and knockoff baselines, especially when predictors are strongly correlated, achieving higher true-positive rates and lower false-discovery proportions. By coupling diffusion-based data augmentation with principled aggregation, our method advances variable selection methodology and broadens the toolkit for interpretable, statistically rigorous analysis in complex scientific applications.
- Abstract(参考訳): 高次元の高相関データに対する可変選択は、しばしば不安定で信頼性の低いモデルを生み出すため、長い間難しい問題であった。
本稿では,高忠実度合成データを生成する拡散モデルの能力を生かした再サンプル集約フレームワークを提案する。
具体的には、元のデータに適合した拡散モデルから複数の擬似データセットを描画し、オフザシェルフセレクタ(eg, lasso, SCAD)を適用し、その結果の包含指標と係数を記憶する。
レプリカをまたいだアグリゲーションは、可変選択のための調整された安定性スコアを持つ予測器の安定なサブセットを生成する。
理論的には,提案手法は軽度仮定の下で一貫した選択であることを示す。
生成モデルは、大きな事前訓練された重量から知識をインポートするので、観察されたサンプルが小さい場合やうるさい場合には、転送学習の恩恵を受け、パワーを高めることができる。
また、グラフィカルモデル選択や、有効な信頼区間と仮説テストをサポートする統計的推測を含む、他のモデル選択問題に合成データを集約する枠組みを拡張した。
大規模なシミュレーションでは、特に予測者が強い相関関係にある場合、ラッソ、安定性の選択、ノックオフベースラインに対して一貫した利得を示し、より高い真陽性率と低い偽発見比率を実現している。
拡散に基づくデータ拡張と原理的集約を結合することにより,変数選択手法を進化させ,複雑な科学的応用において解釈可能で統計的に厳密な解析を行うツールキットを拡充する。
関連論文リスト
- Going from a Representative Agent to Counterfactuals in Combinatorial Choice [2.9172603864294033]
本稿では,二元多面体の集合からデータを抽出する意思決定問題について検討する。
本稿では,代表エージェントモデルに基づく非パラメトリックな非実例推論手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T15:24:23Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Learning Multivariate CDFs and Copulas using Tensor Factorization [39.24470798045442]
データの多変量分布を学習することは、統計学と機械学習における中核的な課題である。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにすることを目的とする。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、単純ベイズモデルとして普遍表現を許容することを示す。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
論文 参考訳(メタデータ) (2022-10-13T16:18:46Z) - Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文 参考訳(メタデータ) (2022-08-17T11:17:47Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Transfer Learning with Multi-source Data: High-dimensional Inference for
Group Distributionally Robust Models [0.0]
マルチソースデータによる学習はモデル一般化可能性の向上に役立ち、多くの重要な統計問題に不可欠なものである。
本稿では,マルチソースデータに対する複数の高次元回帰モデルについて考察する。
我々は,高次元マクシミン効果に対する有効信頼区間を構築するための新しいDenseNetサンプリング手法を考案した。
論文 参考訳(メタデータ) (2020-11-15T16:15:10Z) - Causal Transfer Random Forest: Combining Logged Data and Randomized
Experiments for Robust Prediction [8.736551469632758]
本稿では,既存のトレーニングデータとランダム化実験から得られた少量のデータを組み合わせてモデルを訓練するCTRFについて述べる。
我々は,Bing Adsプラットフォームにおける合成データ実験と実世界の実験の両方を用いてCTRFを評価する。
論文 参考訳(メタデータ) (2020-10-17T03:54:37Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。