論文の概要: For high-dimensional hierarchical models, consider exchangeability of
effects across covariates instead of across datasets
- arxiv url: http://arxiv.org/abs/2107.06428v1
- Date: Tue, 13 Jul 2021 23:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 01:49:03.918774
- Title: For high-dimensional hierarchical models, consider exchangeability of
effects across covariates instead of across datasets
- Title(参考訳): 高次元階層モデルの場合、データセットを横断する代わりに共変量間の効果の交換可能性を考える
- Authors: Brian L. Trippe, Hilary K. Finucane, Tamara Broderick
- Abstract要約: 共変量数がデータセット数を超えると,標準慣行は統計性能が劣ることを示す。
統計遺伝学では、最大数百万の遺伝的変異に対して、何千もの個人(責任)に対して数十の形質(データセットを定義する)を抑圧するかもしれません。
代替的な視点を表現した階層モデルを提案する。
- 参考スコア(独自算出の注目度): 18.74167116981788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Bayesian methods enable information sharing across multiple
related regression problems. While standard practice is to model regression
parameters (effects) as (1) exchangeable across datasets and (2) correlated to
differing degrees across covariates, we show that this approach exhibits poor
statistical performance when the number of covariates exceeds the number of
datasets. For instance, in statistical genetics, we might regress dozens of
traits (defining datasets) for thousands of individuals (responses) on up to
millions of genetic variants (covariates). When an analyst has more covariates
than datasets, we argue that it is often more natural to instead model effects
as (1) exchangeable across covariates and (2) correlated to differing degrees
across datasets. To this end, we propose a hierarchical model expressing our
alternative perspective. We devise an empirical Bayes estimator for learning
the degree of correlation between datasets. We develop theory that demonstrates
that our method outperforms the classic approach when the number of covariates
dominates the number of datasets, and corroborate this result empirically on
several high-dimensional multiple regression and classification problems.
- Abstract(参考訳): 階層ベイズ法は、複数の関連する回帰問題間で情報共有を可能にする。
標準的手法は,(1)データセット間で交換可能な回帰パラメータ(効果)をモデル化し,(2)共変量間で異なる次数に相関するが,コ変量数がデータセット数を超えると統計性能が低下することを示す。
例えば、統計遺伝学では、何百万もの遺伝的変異(共変量)に対して、何千もの個人(応答)に対して何十もの特性(データセットの定義)を回帰させる可能性がある。
アナリストがデータセットよりも共変量が多い場合、(1)共変量間で交換可能な効果と(2)データセット間で異なる次数に相関する効果をモデル化することがより自然であると論じる。
この目的のために,我々の代替視点を表現する階層モデルを提案する。
データセット間の相関度を学習するための経験的ベイズ推定器を考案する。
本手法は,共変量数がデータセット数を支配する場合の古典的なアプローチよりも優れており,複数の高次元多重回帰問題や分類問題に対して実証的に相関する理論を考案する。
関連論文リスト
- Linked shrinkage to improve estimation of interaction effects in
regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。
我々は,選択戦略では難しい推論モデルの可能性を評価する。
私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文 参考訳(メタデータ) (2023-09-25T10:03:39Z) - Multiple Augmented Reduced Rank Regression for Pan-Cancer Analysis [0.0]
フレキシブルな行列回帰および分解法である多重強化階数回帰(maRRR)を提案する。
我々は、ランダム行列理論によって動機付けられた構造化された核ノルムの目的を考える。
われわれはTGAの複数の癌型(すなわち膵臓)の遺伝子発現データにmaRRRを適用した。
論文 参考訳(メタデータ) (2023-08-30T21:40:58Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Controlling for multiple covariates [0.0]
統計学における根本的な問題は、サブ集団のメンバーが達成した結果を比較することである。
比較は、特定の特徴に応じて類似した個人に対して別々に行う場合に最も理にかなっている。
論文 参考訳(メタデータ) (2021-12-01T17:37:36Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Reduced-Rank Tensor-on-Tensor Regression and Tensor-variate Analysis of
Variance [11.193504036335503]
このような構造を利用するために古典的多変量回帰モデルを拡張する。
ブロックリラクシエーションアルゴリズムにより最大ラピエーション推定器を得る。
別々のアプリケーションがWildイメージデータベースのラベル付き顔に3方向のTANOVAを実行する。
論文 参考訳(メタデータ) (2020-12-18T14:04:41Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。