論文の概要: General Demographic Foundation Models for Enhancing Predictive Performance Across Diseases
- arxiv url: http://arxiv.org/abs/2509.07330v1
- Date: Tue, 09 Sep 2025 02:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.167045
- Title: General Demographic Foundation Models for Enhancing Predictive Performance Across Diseases
- Title(参考訳): 疾患の予測性能向上のための一般デモグラフィー基礎モデル
- Authors: Li-Chin Chen, Ji-Tian Sheu, Yuh-Jue Chuang,
- Abstract要約: 本研究は、年齢や性別に合わせた基礎的表現フレームワークとして、GDP(General Demographic Pre-trained)モデルを提案する。
このモデルは,地域によって異なる多様な疾患と人口構成を持つデータセットを用いて,事前学習し,評価する。
- 参考スコア(独自算出の注目度): 0.39508022083907385
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Demographic attributes are universally present in electronic health records and serve as vital predictors in clinical risk stratification and treatment decisions. Despite their significance, these attributes are often relegated to auxiliary roles in model design, with limited attention has been given to learning their representations. This study proposes a General Demographic Pre-trained (GDP) model as a foundational representation framework tailored to age and gender. The model is pre-trained and evaluated using datasets with diverse diseases and population compositions from different geographic regions. The GDP architecture explores combinations of ordering strategies and encoding methods to transform tabular demographic inputs into latent embeddings. Experimental results demonstrate that sequential ordering substantially improves model performance in discrimination, calibration, and the corresponding information gain at each decision tree split, particularly in diseases where age and gender contribute significantly to risk stratification. Even in datasets where demographic attributes hold relatively low predictive value, GDP enhances the representational importance, increasing their influence in downstream gradient boosting models. The findings suggest that foundational models for tabular demographic attributes can generalize across tasks and populations, offering a promising direction for improving predictive performance in healthcare applications.
- Abstract(参考訳): デモグラフィックの属性は、電子的な健康記録に普遍的に存在し、臨床リスク階層化と治療決定において重要な予測因子として機能する。
その重要性にもかかわらず、これらの属性はモデル設計における補助的な役割に委ねられることが多く、それらの表現を学ぶことへの注意は限られている。
本研究は、年齢や性別に合わせた基礎的表現フレームワークとして、GDP(General Demographic Pre-trained)モデルを提案する。
このモデルは,地域によって異なる多様な疾患と人口構成を持つデータセットを用いて,事前学習し,評価する。
GDPアーキテクチャは、表層入力を潜在埋め込みに変換するための順序付け戦略と符号化手法の組み合わせを探求する。
実験結果から,年齢・性別がリスク階層化に大きく寄与する疾患では,決定木ごとの識別,校正,対応する情報獲得のモデル性能が著しく向上することが示唆された。
人口統計特性が比較的低い予測値を持つデータセットであっても、GDPは表現の重要性を高め、下流の勾配上昇モデルに影響を及ぼす。
この結果から,表層属性の基盤モデルがタスクや人口全体にわたって一般化し,医療アプリケーションにおける予測性能向上のための有望な方向性を提供する可能性が示唆された。
関連論文リスト
- Exploring Scaling Laws for EHR Foundation Models [17.84205864956449]
EHR基礎モデルのスケーリング法則に関する最初の実証的研究について述べる。
パラボリックなIsoFLOP曲線や計算,モデルパラメータ,データサイズ,臨床ユーティリティ間の電力-法則関係など,一貫したスケーリングパターンを同定する。
論文 参考訳(メタデータ) (2025-05-29T01:05:11Z) - Examining Imbalance Effects on Performance and Demographic Fairness of Clinical Language Models [4.390908825243365]
本研究は,ICD符号予測におけるデータ不均衡とモデル性能の関係を統計的に検証する。
我々は、最先端のバイオメディカル言語モデルを用いて、性別、年齢、民族、および健康の社会的決定要因の標準ベンチマークデータにおける不均衡を分析する。
我々の研究は、データの不均衡がモデルの性能と公平性に大きく影響していることを示しているが、多数派と特徴的類似性はより重要な要素であるかもしれない。
論文 参考訳(メタデータ) (2024-12-23T18:58:11Z) - Using Backbone Foundation Model for Evaluating Fairness in Chest Radiography Without Demographic Data [2.7436483977171333]
本研究の目的は,基礎モデルのバックボーンを埋め込み抽出器として用いることの有効性を検討することである。
我々は,これらのグループを,前処理,内処理,評価など,様々な段階のバイアス軽減に活用することを提案する。
論文 参考訳(メタデータ) (2024-08-28T20:35:38Z) - Addressing Data Heterogeneity in Federated Learning of Cox Proportional Hazards Models [8.798959872821962]
本稿では,フェデレーションサバイバル分析の分野,特にCox Proportional Hazards(CoxPH)モデルについて概説する。
本稿では,合成データセットと実世界のアプリケーション間のモデル精度を向上させるために,特徴ベースのクラスタリングを用いたFLアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-20T18:34:20Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - IA-GCN: Interpretable Attention based Graph Convolutional Network for
Disease prediction [47.999621481852266]
タスクに対する入力特徴の臨床的関連性を解釈する,解釈可能なグラフ学習モデルを提案する。
臨床シナリオでは、そのようなモデルは、臨床専門家が診断および治療計画のためのより良い意思決定を支援することができる。
本研究では,Tadpoleの平均精度が3.2%,UKBBジェンダーが1.6%,UKBB年齢予測タスクが2%と,比較方法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-29T13:04:02Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。