論文の概要: Federated Random Forest for Partially Overlapping Clinical Data
- arxiv url: http://arxiv.org/abs/2405.20738v1
- Date: Fri, 31 May 2024 10:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:47:24.348159
- Title: Federated Random Forest for Partially Overlapping Clinical Data
- Title(参考訳): 部分的に重複する臨床データに対するフェデレーションランダムフォレスト
- Authors: Youngjun Park, Cord Eric Schmidt, Benedikt Marcel Batton, Anne-Christin Hauschild,
- Abstract要約: 本研究は,臨床データセットにおける特徴と不完全データの一部を重複させることによって生じる課題に対処することを目的とする。
ランダムフォレストのようなほとんどの標準的なアルゴリズムでは、全てのデータセットが同じパラメータを持つことが不可欠である。
フェデレーションされたグローバルに最適化されたモデルを集約するためには、各サイトでローカルに利用可能な機能のみを使用することができる。
- 参考スコア(独自算出の注目度): 0.5062312533373298
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the healthcare sector, a consciousness surrounding data privacy and corresponding data protection regulations, as well as heterogeneous and non-harmonized data, pose huge challenges to large-scale data analysis. Moreover, clinical data often involves partially overlapping features, as some observations may be missing due to various reasons, such as differences in procedures, diagnostic tests, or other recorded patient history information across hospitals or institutes. To address the challenges posed by partially overlapping features and incomplete data in clinical datasets, a comprehensive approach is required. Particularly in the domain of medical data, promising outcomes are achieved by federated random forests whenever features align. However, for most standard algorithms, like random forest, it is essential that all data sets have identical parameters. Therefore, in this work the concept of federated random forest is adapted to a setting with partially overlapping features. Moreover, our research assesses the effectiveness of the newly developed federated random forest models for partially overlapping clinical data. For aggregating the federated, globally optimized model, only features available locally at each site can be used. We tackled two issues in federation: (i) the quantity of involved parties, (ii) the varying overlap of features. This evaluation was conducted across three clinical datasets. The federated random forest model even in cases where only a subset of features overlaps consistently demonstrates superior performance compared to its local counterpart. This holds true across various scenarios, including datasets with imbalanced classes. Consequently, federated random forests for partially overlapped data offer a promising solution to transcend barriers in collaborative research and corporate cooperation.
- Abstract(参考訳): 医療分野では、データプライバシとそれに対応するデータ保護規則、および異種および非調和データを取り巻く意識が、大規模データ分析に大きな課題をもたらしている。
さらに、臨床データには部分的に重複する特徴が伴うことが多く、手術方法の違い、診断検査、あるいは病院や機関間で記録された患者の履歴情報など、様々な理由から、いくつかの観察が欠落していることがある。
臨床データセットにおける特徴と不完全データの一部を重複させることによって生じる課題に対処するためには、包括的なアプローチが必要である。
特に医療データの領域では、特徴が整合するたびに連合したランダムな森林によって有望な結果が得られます。
しかし、ランダムフォレストのようなほとんどの標準的なアルゴリズムでは、全てのデータセットが同じパラメータを持つことが不可欠である。
したがって、この研究において、連合ランダム林の概念は部分的に重なる特徴を持つ環境に適応する。
さらに,本研究は,部分的に重複する臨床データに対して,新たに開発されたランダム森林モデルの有効性を評価する。
フェデレーションされたグローバルに最適化されたモデルを集約するためには、各サイトでローカルに利用可能な機能のみを使用することができる。
私たちは連邦で2つの問題に取り組みました。
一 関係者の人数
(二)特徴の重複の相違。
この評価は3つの臨床データセットにまたがって行われた。
機能のサブセットがオーバーラップする場合でも,フェデレートされたランダムフォレストモデルでは,局所的なモデルに比べて優れた性能を示す。
これは、不均衡なクラスを持つデータセットなど、さまざまなシナリオに当てはまる。
その結果、部分的に重複したデータに対する連合ランダム林は、共同研究や企業協力における障壁を超越するための有望な解決策となる。
関連論文リスト
- Federated Impression for Learning with Distributed Heterogeneous Data [19.50235109938016]
フェデレートラーニング(FL)は、データを共有することなく、クライアント間で分散データセットから学習できるパラダイムを提供する。
FLでは、データ収集プロトコルや患者人口の多様さにより、異なる保健所のデータに準最適収束が一般的である。
我々は,グローバル情報を表す合成データをフェデレーションとして復元することで,破滅的な忘れを緩和するFedImpresを提案する。
論文 参考訳(メタデータ) (2024-09-11T15:37:52Z) - On the Impact of Data Heterogeneity in Federated Learning Environments with Application to Healthcare Networks [3.9058850780464884]
Federated Learning(FL)は、プライバシに敏感なアプリケーションが、情報を開示することなく、グローバルモデル構築のためにデータセットを活用することを可能にする。
これらの領域の1つは医療であり、サイロのグループは、精度と一般化を改善したグローバルな予測器を生成するために協力する。
本稿では,医学データの複雑さに着目し,FL環境における不均一性の数学的形式化と分類を包括的に調査する。
論文 参考訳(メタデータ) (2024-04-29T09:05:01Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - SepVAE: a contrastive VAE to separate pathological patterns from healthy ones [2.619659560375341]
コントラスト分析VAE(Contrastive Analysis VAE)は、背景データセット(BG)と対象データセット(TG)の共通要因を分離することを目的とした変分自動エンコーダ(VAE)のファミリーである。
3つの医療応用と自然画像データセット(CelebA)における従来のCA-VAEs法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-12T14:52:21Z) - A Client-server Deep Federated Learning for Cross-domain Surgical Image
Segmentation [18.402074964118697]
本稿では2次元画像分割のためのクロスドメイン適応問題の解法を提案する。
医用画像解析におけるディープラーニングアーキテクチャは、より良い一般化のために広範なトレーニングデータを必要とする。
クロスドメイン適応のためのクライアントサーバのディープフェデレーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-14T19:49:47Z) - Random Similarity Forests [2.3204178451683264]
本稿では,任意のデータ型の特徴を持つデータセットを,各特徴の特徴を保ちながら扱える分類法を提案する。
提案したアルゴリズムはランダム類似林(Random similarity Forest)と呼ばれ、複数のドメイン固有の距離測定を用いて、ランダム類似林(Random Forests)の予測性能と類似林(Random similarity Forests)の柔軟性を組み合わせている。
ランダム類似林はRandom Forestsの数値データと同等であり、複雑なデータドメインや混合データドメインのデータセットよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-11T20:14:05Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Practical Challenges in Differentially-Private Federated Survival
Analysis of Medical Data [57.19441629270029]
本稿では,ニューラルネットワークの本質的特性を活用し,生存分析モデルの訓練過程を関連づける。
小さな医療データセットと少数のデータセンターの現実的な設定では、このノイズはモデルを収束させるのが難しくなります。
DPFed-post は,私的フェデレート学習方式に後処理の段階を追加する。
論文 参考訳(メタデータ) (2022-02-08T10:03:24Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。