論文の概要: Handling Overlapping Asymmetric Datasets -- A Twice Penalized P-Spline
Approach
- arxiv url: http://arxiv.org/abs/2311.10489v2
- Date: Mon, 20 Nov 2023 13:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 14:35:24.882619
- Title: Handling Overlapping Asymmetric Datasets -- A Twice Penalized P-Spline
Approach
- Title(参考訳): 重なり合う非対称データセットの処理 -- 2つのP-Splineアプローチ
- Authors: Matthew McTeer, Robin Henderson, Quentin M Anstee, Paolo Missier
- Abstract要約: 本研究の目的は,特定の応答に対してより小さなコホートをモデル化できる新しい手法を開発することである。
線形B-SplineとP-Spline近似の2倍のペナル化手法により、線形B-SplineとP-Spline近似との適合性が向上することがわかった。
非アルコール性脂肪肝炎の発症リスクに関する実生活データセットに適用すると、モデル適合性は65%以上向上する。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overlapping asymmetric datasets are common in data science and pose questions
of how they can be incorporated together into a predictive analysis. In
healthcare datasets there is often a small amount of information that is
available for a larger number of patients such as an electronic health record,
however a small number of patients may have had extensive further testing.
Common solutions such as missing imputation can often be unwise if the smaller
cohort is significantly different in scale to the larger sample, therefore the
aim of this research is to develop a new method which can model the smaller
cohort against a particular response, whilst considering the larger cohort
also. Motivated by non-parametric models, and specifically flexible smoothing
techniques via generalized additive models, we model a twice penalized P-Spline
approximation method to firstly prevent over/under-fitting of the smaller
cohort and secondly to consider the larger cohort. This second penalty is
created through discrepancies in the marginal value of covariates that exist in
both the smaller and larger cohorts. Through data simulations, parameter
tunings and model adaptations to consider a continuous and binary response, we
find our twice penalized approach offers an enhanced fit over a linear B-Spline
and once penalized P-Spline approximation. Applying to a real-life dataset
relating to a person's risk of developing Non-Alcoholic Steatohepatitis, we see
an improved model fit performance of over 65%. Areas for future work within
this space include adapting our method to not require dimensionality reduction
and also consider parametric modelling methods. However, to our knowledge this
is the first work to propose additional marginal penalties in a flexible
regression of which we can report a vastly improved model fit that is able to
consider asymmetric datasets, without the need for missing data imputation.
- Abstract(参考訳): 重複する非対称データセットはデータサイエンスでは一般的であり、予測分析にどのように組み込むかという疑問を投げかける。
医療データセットでは、電子的な健康記録など、より多くの患者に利用可能な情報が少ないことが多いが、少数の患者がさらなる検査を行った可能性がある。
小さいコホートが大きなサンプルと大きく異なる場合, 計算能力の欠如などの共通解は, しばしば不適当であり, より大きなコホートも考慮しながら, 特定の応答に対してより小さなコホートをモデル化できる新しい手法を開発することを目的とする。
非パラメトリックモデル、特に一般化された加法モデルによる柔軟な平滑化手法により、より小さなコホートのオーバーアンダーフィットを第一に防止し、第二により大きなコホートを考えるために、2回ペナル化されたP-スプライン近似法をモデル化する。
この第二のペナルティは、より小さいコホートとより大きなコホートの両方に存在する共変量の限界値の不一致によって生み出される。
データシミュレーション、パラメータチューニング、モデル適応により、連続的および二元的応答を考慮することで、我々の2倍のペナルティ化アプローチは、線形b-スプラインと、かつてペナルティ化されたp-スプライン近似に適合する。
非アルコール性脂肪性肝炎発症リスクに関する実生活データに適用すると,モデル適合性が65%以上向上した。
この領域における今後の作業分野は、この手法を次元の縮小を必要としないよう適応させ、パラメトリックモデリング法も検討することを含む。
しかし、我々の知る限りでは、これは、データインプテーションの欠如なしに、非対称データセットを考慮できる大幅に改善されたモデル適合を報告できる柔軟な回帰において、追加の限界的ペナルティを提案する最初の仕事である。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Linked shrinkage to improve estimation of interaction effects in
regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。
我々は,選択戦略では難しい推論モデルの可能性を評価する。
私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文 参考訳(メタデータ) (2023-09-25T10:03:39Z) - Multi-modality fusion using canonical correlation analysis methods:
Application in breast cancer survival prediction from histology and genomics [16.537929113715432]
2つのモードの融合にカノニカル相関解析(CCA)とCCAのペナル化変種を用いて検討した。
モデルパラメータが既知の場合,両モードを併用した後進平均推定器は,潜時変動予測における単一モード後進推定器の任意の線形混合よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-27T21:18:01Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - A Hamiltonian Monte Carlo Model for Imputation and Augmentation of
Healthcare Data [0.6719751155411076]
変数や質問のデータが収集されないか利用できないため、ほとんどすべての臨床研究に不足する値が存在します。
既存のモデルは通常、プライバシの懸念を考慮せず、複数の機能にまたがる固有の相関を利用していない。
本研究では, 欠落値のインプットと高次元医療データへの付加的サンプル生成に対するベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-03T11:57:42Z) - Modern Multiple Imputation with Functional Data [6.624726878647541]
本研究は, 関数モデルにスパースかつ不規則に標本化された関数データを適用することの問題点を考察する。
これは、より複雑な非線形モデルの適合において大きな課題に直面している最先端の手法の限界を克服する。
論文 参考訳(メタデータ) (2020-11-25T04:22:30Z) - Dimensionality reduction, regularization, and generalization in
overparameterized regressions [8.615625517708324]
主成分回帰(主成分回帰)としても知られるPCA-OLSは次元の減少によって回避できることを示す。
OLSは任意に敵の攻撃を受けやすいが,次元性低下はロバスト性を向上させることを示す。
その結果,プロジェクションがトレーニングデータに依存する手法は,トレーニングデータとは独立にプロジェクションが選択される手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-11-23T15:38:50Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。