論文の概要: Heterogeneous Transfer Learning for Building High-Dimensional
Generalized Linear Models with Disparate Datasets
- arxiv url: http://arxiv.org/abs/2312.12786v1
- Date: Wed, 20 Dec 2023 06:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:38:26.793838
- Title: Heterogeneous Transfer Learning for Building High-Dimensional
Generalized Linear Models with Disparate Datasets
- Title(参考訳): 異種転送学習による異種データセットを用いた高次元一般化線形モデルの構築
- Authors: Ruzhang Zhao, Prosenjit Kundu, Arkajyoti Saha, Nilanjan Chatterjee
- Abstract要約: 本稿では,高次元一般化線形モデル構築のための伝達学習手法について述べる。
適応ラッソペナルティを用いることで、基礎となるパラメータ推定のオラクル特性がもたらされることを示す。
本稿では,5つの共通疾患に対するリスク予測モデルの開発に,提案手法のタイムリーな適用について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Development of comprehensive prediction models are often of great interest in
many disciplines of science, but datasets with information on all desired
features typically have small sample sizes. In this article, we describe a
transfer learning approach for building high-dimensional generalized linear
models using data from a main study that has detailed information on all
predictors, and from one or more external studies that have ascertained a more
limited set of predictors. We propose using the external dataset(s) to build
reduced model(s) and then transfer the information on underlying parameters for
the analysis of the main study through a set of calibration equations, while
accounting for the study-specific effects of certain design variables. We then
use a generalized method of moment (GMM) with penalization for parameter
estimation and develop highly scalable algorithms for fitting models taking
advantage of the popular glmnet package. We further show that the use of
adaptive-Lasso penalty leads to the oracle property of underlying parameter
estimates and thus leads to convenient post-selection inference procedures. We
conduct extensive simulation studies to investigate both predictive performance
and post-selection inference properties of the proposed method. Finally, we
illustrate a timely application of the proposed method for the development of
risk prediction models for five common diseases using the UK Biobank study,
combining baseline information from all study participants (500K) and recently
released high-throughout proteomic data (# protein = 1500) on a subset (50K) of
the participants.
- Abstract(参考訳): 包括的な予測モデルの開発は科学の多くの分野において大きな関心を持つが、すべての望ましい特徴に関する情報を持つデータセットは通常、小さなサンプルサイズを持つ。
本稿では,すべての予測器について詳細な情報を持つ主研究データと,より限定された予測器の集合を確定した1つ以上の外部研究データを用いて,高次元一般化線形モデルを構築するための伝達学習手法について述べる。
本研究では, モデルモデルの構築に外部データセットを用い, 設計変数の学習固有の影響を考慮しつつ, キャリブレーション方程式を用いて主研究の分析のための基礎となるパラメータの情報を伝達することを提案する。
次に,パラメータ推定にペナリゼーションを伴う一般化モーメント法(gmm)を用い,一般的なglmnetパッケージを活用したモデル適合のための高スケーラブルなアルゴリズムを開発した。
さらに、適応ラッソペナルティを用いることで、基礎となるパラメータ推定のオラクル特性が得られ、より便利な選択後推論手順がもたらされることを示す。
提案手法の予測性能と選択後の推定特性の両方を調べるため,広範囲なシミュレーションを行った。
最後に,英国バイオバンクを用いた5つの共通疾患のリスク予測モデルの開発に,提案手法をタイムリーに応用し,全研究参加者(500k)のベースライン情報と,最近発表された高スループットプロテオミクスデータ(# protein = 1500)を,50kのサブセット上で組み合わせた。
関連論文リスト
- GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Hypothesis Testing using Causal and Causal Variational Generative Models [0.0]
Causal GenとCausal Variational Genは、非パラメトリックな構造因果知識とディープラーニング機能近似を併用することができる。
我々は、意図的な(非ランダムな)トレーニングとテストデータの分割を用いて、これらのモデルが、類似の、しかし分布外のデータポイントよりも一般化できることを示します。
本手法は, 人工振り子データセット, 外傷手術用地上レベル落下データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-10-20T13:46:15Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - A Physics-Guided Neural Operator Learning Approach to Model Biological
Tissues from Digital Image Correlation Measurements [3.65211252467094]
本稿では, 生体組織モデリングにおけるデータ駆動型相関について述べる。これは, 未知の負荷シナリオ下でのデジタル画像相関(DIC)測定に基づいて変位場を予測することを目的としている。
ブタ三尖弁リーフレット上の多軸延伸プロトコルのDIC変位追跡測定から材料データベースを構築した。
材料応答は、負荷から結果の変位場への解演算子としてモデル化され、材料特性はデータから暗黙的に学習され、自然にネットワークパラメータに埋め込まれる。
論文 参考訳(メタデータ) (2022-04-01T04:56:41Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - An Optimal Control Approach to Learning in SIDARTHE Epidemic model [67.22168759751541]
本研究では,疫病データから動的コンパートメンタルモデルの時間変化パラメータを学習するための一般的な手法を提案する。
我々はイタリアとフランスの疫病の進化を予報する。
論文 参考訳(メタデータ) (2020-10-28T10:58:59Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。