論文の概要: Efficacy of MRI data harmonization in the age of machine learning. A
multicenter study across 36 datasets
- arxiv url: http://arxiv.org/abs/2211.04125v4
- Date: Thu, 1 Feb 2024 08:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 20:16:20.843814
- Title: Efficacy of MRI data harmonization in the age of machine learning. A
multicenter study across 36 datasets
- Title(参考訳): 機械学習時代のMRIデータ調和の有効性
36データセットを対象としたマルチセンター研究
- Authors: Chiara Marzi, Marco Giannelli, Andrea Barucci, Carlo Tessa, Mario
Mascalchi, Stefano Diciotti
- Abstract要約: 複数のサイトから公開されているMRIデータをポーリングすることで、幅広い被験者のグループを集め、統計力を高め、機械学習技術でデータの再利用を促進することができる。
マルチセンターデータの調和化は、データの非生物学的変動源に付随する相反効果を低減するために必要である。
機械学習の前にデータセット全体に適用されると、トレーニングセット外の情報がモデル構築に影響を与える可能性があるため、ハーモニゼーションはデータ漏洩につながる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pooling publicly-available MRI data from multiple sites allows to assemble
extensive groups of subjects, increase statistical power, and promote data
reuse with machine learning techniques. The harmonization of multicenter data
is necessary to reduce the confounding effect associated with non-biological
sources of variability in the data. However, when applied to the entire dataset
before machine learning, the harmonization leads to data leakage, because
information outside the training set may affect model building, and potentially
falsely overestimate performance. We propose a 1) measurement of the efficacy
of data harmonization; 2) harmonizer transformer, i.e., an implementation of
the ComBat harmonization allowing its encapsulation among the preprocessing
steps of a machine learning pipeline, avoiding data leakage. We tested these
tools using brain T1-weighted MRI data from 1740 healthy subjects acquired at
36 sites. After harmonization, the site effect was removed or reduced, and we
showed the data leakage effect in predicting individual age from MRI data,
highlighting that introducing the harmonizer transformer into a machine
learning pipeline allows for avoiding data leakage.
- Abstract(参考訳): 複数のサイトから公開されているmriデータをプールすることで、広範囲の被験者グループを組み立て、統計力を高め、機械学習技術によるデータの再利用を促進することができる。
マルチセンターデータの調和化は、データの非生物学的変動源に付随する相反効果を低減するために必要である。
しかし、機械学習の前にデータセット全体に適用すると、トレーニングセット外の情報がモデル構築に影響し、潜在的に過大評価されたパフォーマンスに影響を及ぼすため、ハーモニゼーションはデータ漏洩につながる。
1)データ調和の有効性の測定について提案する。
2) 調和器トランスフォーマー、すなわち、機械学習パイプラインの前処理ステップ間でカプセル化を可能にする戦闘調和の実装、データ漏洩を回避する。
健常者1740名を対象に,脳T1強調MRIデータを36箇所で取得した。
調和後, サイト効果を除去または低減し, mriデータから個々の年齢を予測する際のデータ漏洩効果を示し, 機械学習パイプラインにハーモナイザトランスフォーマーを導入することでデータ漏洩を回避できることを示した。
関連論文リスト
- Impact of Leakage on Data Harmonization in Machine Learning Pipelines in Class Imbalance Across Sites [0.19348290147402303]
我々は,クラスバランスがサイト間で等しくないシナリオにおいて,ComBatベースのデータ調和手法の有効性について検討した。
ターゲットラベルを装いながらデータを調和させる新しいアプローチであるPrettYharmonizeを提案する。
論文 参考訳(メタデータ) (2024-10-25T15:49:04Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Data Augmentation with GAN increases the Performance of Arrhythmia
Classification for an Unbalanced Dataset [0.0]
データ不足は、機械学習の分野で大きな問題の1つだ。
本研究では,MIT-BIH Arrhythmia Databaseを用いて新しいECG信号を生成する。
これらの生成されたデータは、機械学習システムと実際のECGデータをテストするために使用される。
論文 参考訳(メタデータ) (2023-02-24T16:47:10Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Using Data Assimilation to Train a Hybrid Forecast System that Combines
Machine-Learning and Knowledge-Based Components [52.77024349608834]
利用可能なデータがノイズの多い部分測定の場合,カオスダイナミクスシステムのデータ支援予測の問題を検討する。
動的システムの状態の部分的測定を用いることで、不完全な知識ベースモデルによる予測を改善するために機械学習モデルを訓練できることを示す。
論文 参考訳(メタデータ) (2021-02-15T19:56:48Z) - Hybrid deep learning architecture for general disruption prediction
across tokamaks [0.0]
本研究では,爆発的データ解析から得られた重要な知見に基づいて,新たなディープラーニング破壊予測アルゴリズムを提案する。
新しいアルゴリズムは,C-Mod,DIII-D,EASTトカマクに対して高い予測精度を実現する。
論文 参考訳(メタデータ) (2020-07-02T21:42:00Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Differentially Private M-band Wavelet-Based Mechanisms in Machine
Learning Environments [4.629162607975834]
データにノイズを埋め込む離散Mバンドウェーブレット変換を用いた3つのプライバシ保護機構を開発する。
本機構は,機械学習環境における統計的解析により,差分プライバシーと学習可能性の両方を維持可能であることを示す。
論文 参考訳(メタデータ) (2019-12-30T18:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。