論文の概要: MedShift: identifying shift data for medical dataset curation
- arxiv url: http://arxiv.org/abs/2112.13885v1
- Date: Mon, 27 Dec 2021 20:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 16:10:27.373231
- Title: MedShift: identifying shift data for medical dataset curation
- Title(参考訳): MedShift:医療データセットのキュレーションのためのシフトデータ識別
- Authors: Xiaoyuan Guo, Judy Wawira Gichoya, Hari Trivedi, Saptarshi Purkayastha
and Imon Banerjee
- Abstract要約: データのシフトやばらつきを検出する方法は、あまり研究されていない。
トップレベルのシフトサンプルを検出するために,MedShiftという統合パイプラインを提案する。
筋骨格X線写真(MU)と胸部X線データを用いたMedShiftの有効性を検討した。
- 参考スコア(独自算出の注目度): 2.4236602474594635
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To curate a high-quality dataset, identifying data variance between the
internal and external sources is a fundamental and crucial step. However,
methods to detect shift or variance in data have not been significantly
researched. Challenges to this are the lack of effective approaches to learn
dense representation of a dataset and difficulties of sharing private data
across medical institutions. To overcome the problems, we propose a unified
pipeline called MedShift to detect the top-level shift samples and thus
facilitate the medical curation. Given an internal dataset A as the base
source, we first train anomaly detectors for each class of dataset A to learn
internal distributions in an unsupervised way. Second, without exchanging data
across sources, we run the trained anomaly detectors on an external dataset B
for each class. The data samples with high anomaly scores are identified as
shift data. To quantify the shiftness of the external dataset, we cluster B's
data into groups class-wise based on the obtained scores. We then train a
multi-class classifier on A and measure the shiftness with the classifier's
performance variance on B by gradually dropping the group with the largest
anomaly score for each class. Additionally, we adapt a dataset quality metric
to help inspect the distribution differences for multiple medical sources. We
verify the efficacy of MedShift with musculoskeletal radiographs (MURA) and
chest X-rays datasets from more than one external source. Experiments show our
proposed shift data detection pipeline can be beneficial for medical centers to
curate high-quality datasets more efficiently. An interface introduction video
to visualize our results is available at https://youtu.be/V3BF0P1sxQE.
- Abstract(参考訳): 高品質なデータセットをキュレートするには、内部および外部ソース間のデータのばらつきを特定することが基本的で重要なステップである。
しかし,データの変化やばらつきを検出する手法は研究されていない。
これに対する課題は、データセットの密接な表現を学ぶための効果的なアプローチの欠如と、医療機関間でプライベートデータを共有することの難しさである。
この問題を解決するため,トップレベルのシフトサンプルを検出し,医用キュレーションを容易にするため,MedShiftと呼ばれる統合パイプラインを提案する。
ベースソースとして内部データセットaが与えられると、まず各クラスのデータセットaの異常検出器を訓練し、教師なしの方法で内部分布を学習する。
第二に、ソース間でデータを交換することなく、各クラスの外部データセットB上でトレーニングされた異常検出を実行します。
異常スコアの高いデータサンプルをシフトデータとして識別する。
外部データセットのシフトを定量化するために、得られたスコアに基づいてBのデータをクラスワイズにクラスタリングする。
次に、a 上の多重クラス分類器を訓練し、b 上の分類器のパフォーマンスのばらつきでシフト度を測定し、各クラスで最大のアノマリースコアを持つ群を徐々に落としていく。
さらに,複数の医療ソースの分布差を調べるために,データセットの品質指標を適用した。
筋骨格X線写真(MU)と胸部X線データを用いたMedShiftの有効性を検討した。
提案するシフトデータ検出パイプラインは、医療センターがより効率的に高品質なデータセットをキュレートするのに有用であることを示す。
結果を視覚化するインターフェース紹介ビデオはhttps://youtu.be/V3BF0P1sxQEで公開されている。
関連論文リスト
- Adversarial Learning for Feature Shift Detection and Correction [45.65548560695731]
機能シフトは、複数のセンサデータ、一部のセンサが機能不全である、あるいは構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った機能につながる、など、多くのデータセットで起こりうる。
そこで本研究では,2つの分布を区別するために訓練された複数の識別器から得られる情報を用いて,破損した特徴を検知し,それらを修正することにより,データセット間の分布シフトを除去する。
論文 参考訳(メタデータ) (2023-12-07T18:58:40Z) - Dynamic Multimodal Information Bottleneck for Multimodality
Classification [26.65073424377933]
本稿では,頑健な融合特徴表現を実現するための動的マルチモーダル情報ボトルネックフレームワークを提案する。
具体的には、情報ボトルネックモジュールは、融合機能におけるタスク関連情報やノイズをフィルタリングするのに役立ちます。
提案手法は最先端の手法を超越し, 大規模ノイズチャネルが存在する場合, 性能を維持できる唯一の手法である。
論文 参考訳(メタデータ) (2023-11-02T08:34:08Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - ALGAN: Anomaly Detection by Generating Pseudo Anomalous Data via Latent
Variables [17.53032543377636]
本稿では,GANジェネレータが偽アノマラスデータと偽正規データを生成する異常潜伏変数生成適応ネットワーク(ALGAN)を提案する。
提案した ALGAN は最先端の手法に匹敵する AUROC を示しながら予測時間を短縮した。
論文 参考訳(メタデータ) (2022-02-21T14:53:05Z) - Embracing the Disharmony in Heterogeneous Medical Data [12.739380441313022]
医療画像データの不均一性は、しばしば機械学習の文脈でドメイン不変性を用いて取り組まれる。
本論文は異種性を受け入れ,マルチタスク学習問題として扱う。
提案手法は,主分類タスクにおけるデータセット間の分類精度を5~30%向上することを示す。
論文 参考訳(メタデータ) (2021-03-23T21:36:39Z) - My Health Sensor, my Classifier: Adapting a Trained Classifier to
Unlabeled End-User Data [0.5091527753265949]
本研究では,ラベル付きソースデータが直接利用できないような制約を伴って,教師なしドメイン適応(DA)のアプローチを提案する。
我々のソリューションは、分類器の信念に基づいて、ターゲットデータ分布の信頼性の高いサブリージョンのみを反復的にラベル付けする。
本研究の目的は,患者のニーズに応じて睡眠時無呼吸を検知し,パーソナライズを実現するためのアプローチをDAに適用することである。
論文 参考訳(メタデータ) (2020-09-22T20:27:35Z) - Learning Invariant Feature Representation to Improve Generalization
across Chest X-ray Datasets [55.06983249986729]
我々は、トレーニングデータと同じデータセットでテストすると、ディープラーニングモデルが、異なるソースからデータセットでテストされると、パフォーマンスが低下し始めることを示す。
対戦型トレーニング戦略を用いることで、ネットワークはソース不変表現を学習せざるを得ないことを示す。
論文 参考訳(メタデータ) (2020-08-04T07:41:15Z) - ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised
Medical Image Segmentation [99.90263375737362]
教師-学生最適化の非同期版であるATSOを提案する。
ATSOはラベルのないデータを2つのサブセットに分割し、モデルの微調整に1つのサブセットを交互に使用し、他のサブセットのラベルを更新する。
医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-24T04:05:12Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。