論文の概要: Distributed Multivariate Regression Modeling For Selecting Biomarkers
Under Data Protection Constraints
- arxiv url: http://arxiv.org/abs/1803.00422v3
- Date: Sun, 1 Oct 2023 09:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 11:36:45.219627
- Title: Distributed Multivariate Regression Modeling For Selecting Biomarkers
Under Data Protection Constraints
- Title(参考訳): データ保護制約下でのバイオマーカー選択のための分散多変量回帰モデル
- Authors: Daniela Z\"oller and Harald Binder
- Abstract要約: 本稿では,反復呼び出しにおける集約データに基づく自動変数選択によるバイオマーカー同定のための多変数回帰手法を提案する。
このアプローチは、複数のロケーションに分散したデータを共同で分析するために使用することができる。
シミュレーションでは、局所的な標準化によって引き起こされた情報損失は最小限である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The discovery of clinical biomarkers requires large patient cohorts and is
aided by a pooled data approach across institutions. In many countries, data
protection constraints, especially in the clinical environment, forbid the
exchange of individual-level data between different research institutes,
impeding the conduct of a joint analyses. To circumvent this problem, only
non-disclosive aggregated data is exchanged, which is often done manually and
requires explicit permission before transfer, i.e., the number of data calls
and the amount of data should be limited. This does not allow for more complex
tasks such as variable selection, as only simple aggregated summary statistics
are typically transferred. Other methods have been proposed that require more
complex aggregated data or use input data perturbation, but these methods can
either not deal with a high number of biomarkers or lose information. Here, we
propose a multivariable regression approach for identifying biomarkers by
automatic variable selection based on aggregated data in iterative calls, which
can be implemented under data protection constraints. The approach can be used
to jointly analyze data distributed across several locations. To minimize the
amount of transferred data and the number of calls, we also provide a heuristic
variant of the approach. When performing global data standardization, the
proposed method yields the same results as pooled individual-level data
analysis. In a simulation study, the information loss introduced by local
standardization is seen to be minimal. In a typical scenario, the heuristic
decreases the number of data calls from more than 10 to 3, rendering manual
data releases feasible. To make our approach widely available for application,
we provide an implementation of the heuristic version incorporated in the
DataSHIELD framework.\
- Abstract(参考訳): 臨床バイオマーカーの発見には大きな患者コホートが必要であり、組織間のデータプールアプローチによって支援されている。
多くの国では、データ保護の制約、特に臨床環境では、異なる研究機関間の個別レベルのデータの交換を禁止し、共同分析の実施を妨げる。
この問題を解決するために、非開示的な集約データのみを交換するが、これは手動で行われ、転送前に明示的な許可を必要とする。
これは、単純な集計された要約統計のみを転送するので、変数選択のようなより複雑なタスクを許可しない。
より複雑な集約データや入力データ摂動を必要とする他の手法が提案されているが、これらの手法は大量のバイオマーカーを扱うことができず、情報を失うこともある。
本稿では,データ保護制約下で実装可能な反復呼び出しにおける集約データに基づく自動変数選択によるバイオマーカー同定のための多変量回帰手法を提案する。
このアプローチは、複数のロケーションに分散したデータを共同分析するために使用できる。
転送データ量と呼び出し数を最小限に抑えるため、このアプローチのヒューリスティックな変形も提供します。
グローバルデータ標準化を行う際、提案手法はプールされた個人レベルのデータ分析と同じ結果が得られる。
シミュレーション研究によれば、局所標準化によってもたらされる情報損失は最小限である。
典型的なシナリオでは、ヒューリスティックはデータ呼び出しの数を10から3に減らし、手動のデータリリースが実現可能になる。
我々のアプローチをアプリケーションで広く利用できるようにするため、私たちはDataSHIELDフレームワークに組み込まれたヒューリスティックバージョンの実装を提供します。
\
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models [25.022166664832596]
本研究では,大規模言語モデル(LLM)におけるデータ汚染を簡易かつ効果的に検出し,その量を推定する手法を提案する。
我々は、複数の質問の連続としてデータ汚染検出をフレーム化し、特定のデータセット分割から各サブサンプルインスタンスの3つの摂動バージョンを作成するクイズ形式を考案する。
以上の結果から,DCQは現状の成果を達成し,既存の方法に比べて汚染・記憶レベルが高いことが示唆された。
論文 参考訳(メタデータ) (2023-11-10T18:48:58Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Distributed sequential federated learning [0.0]
ローカルデータを解析することで,価値ある情報を効率的に効果的に集約するデータ駆動手法を開発した。
我々は、シミュレーションデータの数値的研究と、メキシコの32の病院から収集されたCOVID-19データへの応用を用いている。
論文 参考訳(メタデータ) (2023-01-31T21:20:45Z) - GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources [21.32471030724983]
人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
本研究では,高分解能データの抽出方法として合成データ生成について検討する。
論文 参考訳(メタデータ) (2022-12-08T01:22:12Z) - CEDAR: Communication Efficient Distributed Analysis for Regressions [9.50726756006467]
患者レベルのデータを共有することなく、複数のEHRデータベース上での分散学習への関心が高まっている。
本稿では,局所的な最適推定値を集約する通信効率のよい新しい手法を提案する。
本稿では,統計的推測法と差分プライバシーに関する理論的検討を行い,シミュレーションおよび実データ解析におけるその性能評価を行う。
論文 参考訳(メタデータ) (2022-07-01T09:53:44Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Flexible variable selection in the presence of missing data [0.0]
本稿では,非パラメトリックな変数選択アルゴリズムと多重計算を組み合わせることで,非ランダムなデータが存在する場合のフレキシブルなパネルの開発を行う。
提案手法の動作特性は良好であり,より高い分類性能と可変選択性能を有するパネルが得られた。
論文 参考訳(メタデータ) (2022-02-25T21:41:03Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。