論文の概要: CEDAR: Communication Efficient Distributed Analysis for Regressions
- arxiv url: http://arxiv.org/abs/2207.00306v1
- Date: Fri, 1 Jul 2022 09:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 13:43:15.575489
- Title: CEDAR: Communication Efficient Distributed Analysis for Regressions
- Title(参考訳): CEDAR: 回帰のためのコミュニケーション効率の良い分散分析
- Authors: Changgee Chang, Zhiqi Bu, Qi Long
- Abstract要約: 患者レベルのデータを共有することなく、複数のEHRデータベース上での分散学習への関心が高まっている。
本稿では,局所的な最適推定値を集約する通信効率のよい新しい手法を提案する。
本稿では,統計的推測法と差分プライバシーに関する理論的検討を行い,シミュレーションおよび実データ解析におけるその性能評価を行う。
- 参考スコア(独自算出の注目度): 9.50726756006467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic health records (EHRs) offer great promises for advancing precision
medicine and, at the same time, present significant analytical challenges.
Particularly, it is often the case that patient-level data in EHRs cannot be
shared across institutions (data sources) due to government regulations and/or
institutional policies. As a result, there are growing interests about
distributed learning over multiple EHRs databases without sharing patient-level
data. To tackle such challenges, we propose a novel communication efficient
method that aggregates the local optimal estimates, by turning the problem into
a missing data problem. In addition, we propose incorporating posterior samples
of remote sites, which can provide partial information on the missing
quantities and improve efficiency of parameter estimates while having the
differential privacy property and thus reducing the risk of information
leaking. The proposed approach, without sharing the raw patient level data,
allows for proper statistical inference and can accommodate sparse regressions.
We provide theoretical investigation for the asymptotic properties of the
proposed method for statistical inference as well as differential privacy, and
evaluate its performance in simulations and real data analyses in comparison
with several recently developed methods.
- Abstract(参考訳): 電子健康記録(EHR)は、精密医療の進歩とそれと同時に、重要な分析上の課題を提示する大きな約束を提供する。
特に、EHRの患者レベルのデータは、政府の規制や制度政策により、機関(データソース)間で共有できないことが多い。
その結果,患者レベルのデータを共有することなく,複数のEHRデータベース上での分散学習への関心が高まっている。
そこで本研究では,この問題を未解決データ問題にすることで,局所的最適推定を集約する新しい通信効率のよい手法を提案する。
また,情報漏洩のリスクを低減し,情報漏洩のリスクを低減し,情報不足量の部分的な情報提供とパラメータ推定の効率向上を両立できる遠隔地後部サンプルの導入を提案する。
提案手法は, 患者レベルのデータを共有することなく, 適切な統計的推測が可能であり, スパース回帰を許容できる。
本稿では,統計的推測法と差分プライバシー法の漸近特性に関する理論的検討を行い,最近開発されたいくつかの手法と比較してシミュレーションおよび実データ解析の性能を評価する。
関連論文リスト
- Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Multi-Source Conformal Inference Under Distribution Shift [41.701790856201036]
複数のバイアスのあるデータソースを活用することにより,対象個体数の分布自由な予測区間を得るという課題を考察する。
対象集団および源集団における未観測結果の定量値に対する効率的な影響関数を導出する。
本稿では、効率向上のための重み付き情報ソースとバイアス低減のための重み付き非情報ソースに対するデータ適応戦略を提案する。
論文 参考訳(メタデータ) (2024-05-15T13:33:09Z) - Reliable Generation of Privacy-preserving Synthetic Electronic Health Record Time Series via Diffusion Models [4.240899165468488]
電子健康記録(Electronic Health Records, EHRs)は、患者レベルの豊富なデータソースであり、医療データ分析に有用なリソースを提供する。
しかしながら、プライバシー上の懸念はしばしばEHRへのアクセスを制限し、下流の分析を妨げる。
本研究では,現実的かつプライバシに保護された合成ERH時系列を効率的に生成することで,これらの課題を克服することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T18:56:01Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Data-pooling Reinforcement Learning for Personalized Healthcare
Intervention [20.436521180168455]
我々は、一般的な摂動値反復フレームワークに基づく新しいデータプール強化学習(RL)アルゴリズムを開発した。
提案アルゴリズムは,従来の手法では推定精度とは対照的に,(後悔によって測定された)決定性能と直接結びつくことの重み付けという,3つの主要な革新とともに,履歴データを適応的にプールする。
提案手法の理論的発展を実証的に優れた性能で実証し,未計画の読解を防止するために,解凍後介入の文脈におけるケーススタディにより検証した。
論文 参考訳(メタデータ) (2022-11-16T15:52:49Z) - Collaborative causal inference on distributed data [7.293479909193382]
本研究では,データ協調実験(DC-QE)を提案し,対象と共変量の欠如を解消し,推定におけるランダムな誤りやバイアスを低減する。
提案手法では, 個人データから生成した中間表現を局所的データから構築し, プライバシ保存のためにプライベートデータの代わりに中間表現を共有し, 共有中間表現から適合度スコアを推定し, 最終的に, 適合度スコアから治療効果を推定する。
論文 参考訳(メタデータ) (2022-08-16T18:28:56Z) - Towards Handling Uncertainty-at-Source in AI -- A Review and Next Steps
for Interval Regression [6.166295570030645]
本稿では,近年の成長領域である区間値データの線形回帰に着目した。
我々は,最先端手法の詳細な分析を行い,特性の異なるデータセットに適用した場合の動作,利点,落とし穴を明らかにする。
論文 参考訳(メタデータ) (2021-04-15T05:31:10Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。