論文の概要: Understanding Dataset Bias in Medical Imaging: A Case Study on Chest X-rays
- arxiv url: http://arxiv.org/abs/2507.07722v1
- Date: Thu, 10 Jul 2025 12:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.403119
- Title: Understanding Dataset Bias in Medical Imaging: A Case Study on Chest X-rays
- Title(参考訳): 医用画像におけるデータセットバイアスの理解 : 胸部X線を例として
- Authors: Ethan Dack, Chengliang Dai,
- Abstract要約: 最近の作業では、悪名高いタスク名そのデータセットを再検討している。
本研究では,オープンソースの胸部X線データセットに適用されるのと同じタスクを再考する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has revisited the infamous task Name that dataset and established that in non-medical datasets, there is an underlying bias and achieved high Accuracies on the dataset origin task. In this work, we revisit the same task applied to popular open-source chest X-ray datasets. Medical images are naturally more difficult to release for open-source due to their sensitive nature, which has led to certain open-source datasets being extremely popular for research purposes. By performing the same task, we wish to explore whether dataset bias also exists in these datasets. % We deliberately try to increase the difficulty of the task by dataset transformations. We apply simple transformations of the datasets to try to identify bias. Given the importance of AI applications in medical imaging, it's vital to establish whether modern methods are taking shortcuts or are focused on the relevant pathology. We implement a range of different network architectures on the datasets: NIH, CheXpert, MIMIC-CXR and PadChest. We hope this work will encourage more explainable research being performed in medical imaging and the creation of more open-source datasets in the medical domain. The corresponding code will be released upon acceptance.
- Abstract(参考訳): 最近の研究は、データセットに悪名高いタスク名を再考し、非医療データセットには基盤となるバイアスがあり、データセットの起源タスクで高い精度を達成したことを証明した。
本研究では,オープンソースの胸部X線データセットに適用されるのと同じタスクを再考する。
医学画像は、その繊細な性質のために、当然オープンソースのためにリリースすることが難しいため、あるオープンソースデータセットは研究目的で非常に人気がある。
同じタスクを実行することで、これらのデータセットにもデータセットバイアスが存在するかどうかを調査したいと考えています。
% データセット変換によるタスクの難易度向上を意図的に図っている。
バイアスを識別するために、データセットの単純な変換を適用します。
医用画像におけるAI応用の重要性を考えると、現代の手法がショートカットを行っているか、関連する病理に焦点を当てているかを確認することが不可欠である。
NIH、CheXpert、MIMIC-CXR、PadChestなど、さまざまなネットワークアーキテクチャをデータセット上に実装しています。
この研究は、医療画像の研究や、医療領域におけるオープンソースデータセットの作成において、より説明可能な研究を促進することを願っている。
対応するコードは受理時にリリースされる。
関連論文リスト
- In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review [18.178774133733686]
本稿では,複数の医用画像アプリケーションにまたがる公開データセットとその関連研究成果を継続的に追跡するリビングレビューを提案する。
医用画像データセットの作成に関する重要な考察、データアノテーションのベストプラクティスの見直し、ショートカットの重要性と人口分布の多様性について議論し、ライフサイクル全体を通してデータセットを管理することの重要性を強調する。
論文 参考訳(メタデータ) (2025-01-18T11:03:59Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Dataset Distillation for Medical Dataset Sharing [38.65823547986758]
データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等のパフォーマンスを達成するように、小さなデータセットを合成することができる。
新型コロナウイルスの胸部X線画像データセットによる実験結果から,胸部X線画像が不足していても高い検出性能が得られた。
論文 参考訳(メタデータ) (2022-09-29T07:49:20Z) - Exploring and Distilling Posterior and Prior Knowledge for Radiology
Report Generation [55.00308939833555]
PPKEDには、Posterior Knowledge Explorer (PoKE), Prior Knowledge Explorer (PrKE), Multi-domain Knowledge Distiller (MKD)の3つのモジュールが含まれている。
PoKEは後部知識を探求し、視覚データのバイアスを軽減するために明確な異常な視覚領域を提供する。
PrKEは、以前の医学知識グラフ(医学知識)と以前の放射線学レポート(作業経験)から以前の知識を探り、テキストデータのバイアスを軽減する。
論文 参考訳(メタデータ) (2021-06-13T11:10:02Z) - Learning Invariant Feature Representation to Improve Generalization
across Chest X-ray Datasets [55.06983249986729]
我々は、トレーニングデータと同じデータセットでテストすると、ディープラーニングモデルが、異なるソースからデータセットでテストされると、パフォーマンスが低下し始めることを示す。
対戦型トレーニング戦略を用いることで、ネットワークはソース不変表現を学習せざるを得ないことを示す。
論文 参考訳(メタデータ) (2020-08-04T07:41:15Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。