論文の概要: Impact of Leakage on Data Harmonization in Machine Learning Pipelines in Class Imbalance Across Sites
- arxiv url: http://arxiv.org/abs/2410.19643v2
- Date: Mon, 28 Oct 2024 13:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:23:13.860650
- Title: Impact of Leakage on Data Harmonization in Machine Learning Pipelines in Class Imbalance Across Sites
- Title(参考訳): クラス不均衡地域の機械学習パイプラインにおける漏洩がデータ調和に及ぼす影響
- Authors: Nicolás Nieto, Simon B. Eickhoff, Christian Jung, Martin Reuter, Kersten Diers, Malte Kelm, Artur Lichtenberg, Federico Raimondo, Kaustubh R. Patil,
- Abstract要約: 我々は,クラスバランスがサイト間で等しくないシナリオにおいて,ComBatベースのデータ調和手法の有効性について検討した。
ターゲットラベルを装いながらデータを調和させる新しいアプローチであるPrettYharmonizeを提案する。
- 参考スコア(独自算出の注目度): 0.19348290147402303
- License:
- Abstract: Machine learning (ML) models benefit from large datasets. Collecting data in biomedical domains is costly and challenging, hence, combining datasets has become a common practice. However, datasets obtained under different conditions could present undesired site-specific variability. Data harmonization methods aim to remove site-specific variance while retaining biologically relevant information. This study evaluates the effectiveness of popularly used ComBat-based methods for harmonizing data in scenarios where the class balance is not equal across sites. We find that these methods struggle with data leakage issues. To overcome this problem, we propose a novel approach PrettYharmonize, designed to harmonize data by pretending the target labels. We validate our approach using controlled datasets designed to benchmark the utility of harmonization. Finally, using real-world MRI and clinical data, we compare leakage-prone methods with PrettYharmonize and show that it achieves comparable performance while avoiding data leakage, particularly in site-target-dependence scenarios.
- Abstract(参考訳): 機械学習(ML)モデルは大きなデータセットの恩恵を受ける。
バイオメディカルドメインでデータを収集するのは費用がかかり難いため、データセットを組み合わせることが一般的な慣行となっている。
しかし、異なる条件下で得られたデータセットは、望ましくないサイト固有の変動を示す可能性がある。
データ調和法は, 生体情報を保持しながら, サイト固有の分散を除去することを目的としている。
本研究では,クラスバランスがサイト間で等しくないシナリオにおいて,ComBatをベースとしたデータ調和手法の有効性を評価する。
これらの手法は,データ漏洩問題に対処する。
この問題を解決するために,ターゲットラベルを装いながらデータを調和させる新しいアプローチであるPrettYharmonizeを提案する。
ハーモニゼーションの実用性をベンチマークするために設計された制御データセットを用いて、我々のアプローチを検証する。
最後に、実世界のMRIと臨床データを用いて、PrettYharmonizeと比較し、特にサイト-ターゲット-依存性シナリオにおいて、データ漏洩を避けながら同等の性能を発揮することを示す。
関連論文リスト
- Federated Impression for Learning with Distributed Heterogeneous Data [19.50235109938016]
フェデレートラーニング(FL)は、データを共有することなく、クライアント間で分散データセットから学習できるパラダイムを提供する。
FLでは、データ収集プロトコルや患者人口の多様さにより、異なる保健所のデータに準最適収束が一般的である。
我々は,グローバル情報を表す合成データをフェデレーションとして復元することで,破滅的な忘れを緩和するFedImpresを提案する。
論文 参考訳(メタデータ) (2024-09-11T15:37:52Z) - Distributed Harmonization: Federated Clustered Batch Effect Adjustment and Generalization [28.24136512924053]
医療分野では、複数のサイトや機関からデータを収集することが一般的な戦略である。
様々な場所からのデータは、現地の環境や施設に偏りやすい。
一般的な戦略は、重要な生物学的情報を保持しながら、サイトのバイアスを調和させることである。
論文 参考訳(メタデータ) (2024-05-23T22:07:54Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Efficacy of MRI data harmonization in the age of machine learning. A
multicenter study across 36 datasets [0.0]
複数のサイトから公開されているMRIデータをポーリングすることで、幅広い被験者のグループを集め、統計力を高め、機械学習技術でデータの再利用を促進することができる。
マルチセンターデータの調和化は、データの非生物学的変動源に付随する相反効果を低減するために必要である。
機械学習の前にデータセット全体に適用されると、トレーニングセット外の情報がモデル構築に影響を与える可能性があるため、ハーモニゼーションはデータ漏洩につながる。
論文 参考訳(メタデータ) (2022-11-08T09:45:39Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - An Experimental Study of Data Heterogeneity in Federated Learning
Methods for Medical Imaging [8.984706828657814]
フェデレーション学習は、複数の機関が、プライバシー保護の方法で、ローカルデータ上で機械学習モデルを協調的にトレーニングすることを可能にする。
本研究では,データ不均一性の分類体系が,量スキュー,ラベル分布スキュー,画像取得スキューなどのフェデレーション学習方法に与える影響について検討した。
本稿では,データ量スキューの重み付き平均値,重み付き損失量,ラベル分布スキューのバッチ正規化平均値など,データの不均一性からの性能低下を克服するいくつかの緩和策を提案する。
論文 参考訳(メタデータ) (2021-07-18T05:47:48Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。