論文の概要: Heterogeneous Transfer Learning for Building High-Dimensional Generalized Linear Models with Disparate Datasets
- arxiv url: http://arxiv.org/abs/2312.12786v2
- Date: Sat, 17 Aug 2024 05:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:57:15.610142
- Title: Heterogeneous Transfer Learning for Building High-Dimensional Generalized Linear Models with Disparate Datasets
- Title(参考訳): 異なるデータセットを持つ高次元一般化線形モデル構築のための不均一移動学習
- Authors: Ruzhang Zhao, Prosenjit Kundu, Arkajyoti Saha, Nilanjan Chatterjee,
- Abstract要約: 本稿では,高次元一般化線形モデル構築のための伝達学習手法について述べる。
我々は、すべての予測器に関する詳細な情報と、より限定された予測器のセットを持つ、より大きい、潜在的にはるかに大きな研究データを用いて、主研究からのデータを使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Development of comprehensive prediction models are often of great interest in many disciplines of science, but datasets with information on all desired features often have small sample sizes. We describe a transfer learning approach for building high-dimensional generalized linear models using data from a main study with detailed information on all predictors and an external, potentially much larger, study that has ascertained a more limited set of predictors. We propose using the external dataset to build a reduced model and then "transfer" the information on underlying parameters for the analysis of the main study through a set of calibration equations which can account for the study-specific effects of design variables. We then propose a penalized generalized method of moment framework for inference and a one-step estimation method that could be implemented using standard glmnet package. We develop asymptotic theory and conduct extensive simulation studies to investigate both predictive performance and post-selection inference properties of the proposed method. Finally, we illustrate an application of the proposed method for the development of risk models for five common diseases using the UK Biobank study, combining information on low-dimensional risk factors and high throughout proteomic biomarkers.
- Abstract(参考訳): 包括的な予測モデルの開発は、科学の多くの分野において大きな関心を持つことが多いが、全ての望ましい特徴に関する情報を持つデータセットは、しばしば小さなサンプルサイズを持つ。
本稿では,すべての予測器の詳細な情報と,より限定された予測器の集合を確定した外部的,潜在的にはるかに大きいデータを用いて,高次元一般化線形モデルを構築するための伝達学習手法について述べる。
そこで本研究では,設計変数の学習特異的な影響を考慮に入れたキャリブレーション式を用いて,主研究の主研究分析の基盤となるパラメータの「伝達」を行うための外部データセットを提案する。
次に,標準glmnetパッケージを用いて実装可能な一段階推定法を提案する。
本研究では, 漸近理論を開発し, 提案手法の予測性能と選択後推測特性の両方について検討する。
最後に,イギリスバイオバンクを用いた5つの共通疾患のリスクモデル開発のための提案手法の適用について,低次元リスク因子とプロテオミクスバイオマーカーを組み合わせて検討した。
関連論文リスト
- GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Hypothesis Testing using Causal and Causal Variational Generative Models [0.0]
Causal GenとCausal Variational Genは、非パラメトリックな構造因果知識とディープラーニング機能近似を併用することができる。
我々は、意図的な(非ランダムな)トレーニングとテストデータの分割を用いて、これらのモデルが、類似の、しかし分布外のデータポイントよりも一般化できることを示します。
本手法は, 人工振り子データセット, 外傷手術用地上レベル落下データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-10-20T13:46:15Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - A Physics-Guided Neural Operator Learning Approach to Model Biological
Tissues from Digital Image Correlation Measurements [3.65211252467094]
本稿では, 生体組織モデリングにおけるデータ駆動型相関について述べる。これは, 未知の負荷シナリオ下でのデジタル画像相関(DIC)測定に基づいて変位場を予測することを目的としている。
ブタ三尖弁リーフレット上の多軸延伸プロトコルのDIC変位追跡測定から材料データベースを構築した。
材料応答は、負荷から結果の変位場への解演算子としてモデル化され、材料特性はデータから暗黙的に学習され、自然にネットワークパラメータに埋め込まれる。
論文 参考訳(メタデータ) (2022-04-01T04:56:41Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - An Optimal Control Approach to Learning in SIDARTHE Epidemic model [67.22168759751541]
本研究では,疫病データから動的コンパートメンタルモデルの時間変化パラメータを学習するための一般的な手法を提案する。
我々はイタリアとフランスの疫病の進化を予報する。
論文 参考訳(メタデータ) (2020-10-28T10:58:59Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。