論文の概要: Heterogeneous Transfer Learning for Building High-Dimensional
Generalized Linear Models with Disparate Datasets
- arxiv url: http://arxiv.org/abs/2312.12786v1
- Date: Wed, 20 Dec 2023 06:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:38:26.793838
- Title: Heterogeneous Transfer Learning for Building High-Dimensional
Generalized Linear Models with Disparate Datasets
- Title(参考訳): 異種転送学習による異種データセットを用いた高次元一般化線形モデルの構築
- Authors: Ruzhang Zhao, Prosenjit Kundu, Arkajyoti Saha, Nilanjan Chatterjee
- Abstract要約: 本稿では,高次元一般化線形モデル構築のための伝達学習手法について述べる。
適応ラッソペナルティを用いることで、基礎となるパラメータ推定のオラクル特性がもたらされることを示す。
本稿では,5つの共通疾患に対するリスク予測モデルの開発に,提案手法のタイムリーな適用について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Development of comprehensive prediction models are often of great interest in
many disciplines of science, but datasets with information on all desired
features typically have small sample sizes. In this article, we describe a
transfer learning approach for building high-dimensional generalized linear
models using data from a main study that has detailed information on all
predictors, and from one or more external studies that have ascertained a more
limited set of predictors. We propose using the external dataset(s) to build
reduced model(s) and then transfer the information on underlying parameters for
the analysis of the main study through a set of calibration equations, while
accounting for the study-specific effects of certain design variables. We then
use a generalized method of moment (GMM) with penalization for parameter
estimation and develop highly scalable algorithms for fitting models taking
advantage of the popular glmnet package. We further show that the use of
adaptive-Lasso penalty leads to the oracle property of underlying parameter
estimates and thus leads to convenient post-selection inference procedures. We
conduct extensive simulation studies to investigate both predictive performance
and post-selection inference properties of the proposed method. Finally, we
illustrate a timely application of the proposed method for the development of
risk prediction models for five common diseases using the UK Biobank study,
combining baseline information from all study participants (500K) and recently
released high-throughout proteomic data (# protein = 1500) on a subset (50K) of
the participants.
- Abstract(参考訳): 包括的な予測モデルの開発は科学の多くの分野において大きな関心を持つが、すべての望ましい特徴に関する情報を持つデータセットは通常、小さなサンプルサイズを持つ。
本稿では,すべての予測器について詳細な情報を持つ主研究データと,より限定された予測器の集合を確定した1つ以上の外部研究データを用いて,高次元一般化線形モデルを構築するための伝達学習手法について述べる。
本研究では, モデルモデルの構築に外部データセットを用い, 設計変数の学習固有の影響を考慮しつつ, キャリブレーション方程式を用いて主研究の分析のための基礎となるパラメータの情報を伝達することを提案する。
次に,パラメータ推定にペナリゼーションを伴う一般化モーメント法(gmm)を用い,一般的なglmnetパッケージを活用したモデル適合のための高スケーラブルなアルゴリズムを開発した。
さらに、適応ラッソペナルティを用いることで、基礎となるパラメータ推定のオラクル特性が得られ、より便利な選択後推論手順がもたらされることを示す。
提案手法の予測性能と選択後の推定特性の両方を調べるため,広範囲なシミュレーションを行った。
最後に,英国バイオバンクを用いた5つの共通疾患のリスク予測モデルの開発に,提案手法をタイムリーに応用し,全研究参加者(500k)のベースライン情報と,最近発表された高スループットプロテオミクスデータ(# protein = 1500)を,50kのサブセット上で組み合わせた。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Toward the Identifiability of Comparative Deep Generative Models [7.5479347719819865]
比較深部生成モデル(DGM)における識別可能性の理論を提案する。
これらのモデルは、一般的な混合関数のクラスにおいて識別性に欠けるが、混合関数が断片的アフィンであるときに驚くほど識別可能であることを示す。
また, モデルミス種別の影響についても検討し, 従来提案されていた比較DGMの正則化手法が, 潜伏変数の数が事前に分かっていない場合に, 識別可能性を高めることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-29T06:10:54Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect
Estimation [28.408998847597882]
因果推論におけるモデル選択の問題,特に2次的治療下での条件平均治療効果(CATE)推定について検討した。
機械学習におけるモデル選択とは異なり、あらゆるデータポイントに対する反実的ポテンシャルの結果が観察されないため、クロスバリデーションの完全な類似は存在しない。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - MRCLens: an MRC Dataset Bias Detection Toolkit [82.44296974850639]
MRCLensは,ユーザがフルモデルをトレーニングする前に,バイアスが存在するかどうかを検出するツールキットである。
ツールキットの導入の便宜のために,MDCにおける共通バイアスの分類も提供する。
論文 参考訳(メタデータ) (2022-07-18T21:05:39Z) - On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。
本手法はトレーニング中のモデルの識別性を強制する。
この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-06-17T07:50:22Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - A Clustering-aided Ensemble Method for Predicting Ridesourcing Demand in
Chicago [0.0]
本研究では,配車サービスにおけるゾーン間移動需要を予測するためのクラスタリング支援型アンサンブル手法(CEM)を提案する。
シカゴのライドソーシングトリップデータを用いて提案手法の実装と試験を行った。
論文 参考訳(メタデータ) (2021-09-08T04:58:29Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。