論文の概要: Understanding Dataset Bias in Medical Imaging: A Case Study on Chest X-rays
- arxiv url: http://arxiv.org/abs/2507.07722v2
- Date: Fri, 11 Jul 2025 09:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 11:58:22.372946
- Title: Understanding Dataset Bias in Medical Imaging: A Case Study on Chest X-rays
- Title(参考訳): 医用画像におけるデータセットバイアスの理解 : 胸部X線を例として
- Authors: Ethan Dack, Chengliang Dai,
- Abstract要約: 我々は、人気のあるオープンソースの胸部X線データセットに適用されるのと同じタスクを再考する。
データセットに単純な変換を適用し、同じタスクを繰り返し、検出されたバイアスを特定して説明するための分析を行う。
NIH、CheXpert、MIMIC-CXR、PadChestなど、さまざまなネットワークアーキテクチャをデータセット上に実装しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have revisited the infamous task ``Name That Dataset'', demonstrating that non-medical datasets contain underlying biases and that the dataset origin task can be solved with high accuracy. In this work, we revisit the same task applied to popular open-source chest X-ray datasets. Medical images are naturally more difficult to release for open-source due to their sensitive nature, which has led to certain open-source datasets being extremely popular for research purposes. By performing the same task, we wish to explore whether dataset bias also exists in these datasets. To extend our work, we apply simple transformations to the datasets, repeat the same task, and perform an analysis to identify and explain any detected biases. Given the importance of AI applications in medical imaging, it's vital to establish whether modern methods are taking shortcuts or are focused on the relevant pathology. We implement a range of different network architectures on the datasets: NIH, CheXpert, MIMIC-CXR and PadChest. We hope this work will encourage more explainable research being performed in medical imaging and the creation of more open-source datasets in the medical domain. Our code can be found here: https://github.com/eedack01/x_ray_ds_bias.
- Abstract(参考訳): 最近の研究は、"`Name That Dataset''という悪名高いタスクを再考し、非医療データセットが基礎となるバイアスを含み、データセットの起源タスクを高精度に解決できることを実証している。
本研究では,オープンソースの胸部X線データセットに適用されるのと同じタスクを再考する。
医学画像は、その繊細な性質のために、当然オープンソースのためにリリースすることが難しいため、あるオープンソースデータセットは研究目的で非常に人気がある。
同じタスクを実行することで、これらのデータセットにもデータセットバイアスが存在するかどうかを調査したいと考えています。
作業を拡張するために、データセットに簡単な変換を適用し、同じタスクを繰り返し、検出されたバイアスを特定して説明するための分析を行います。
医用画像におけるAI応用の重要性を考えると、現代の手法がショートカットを行っているか、関連する病理に焦点を当てているかを確認することが不可欠である。
NIH、CheXpert、MIMIC-CXR、PadChestなど、さまざまなネットワークアーキテクチャをデータセット上に実装しています。
この研究は、医療画像の研究や、医療領域におけるオープンソースデータセットの作成において、より説明可能な研究を促進することを願っている。
私たちのコードは以下の通りです。
関連論文リスト
- In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review [18.178774133733686]
本稿では,複数の医用画像アプリケーションにまたがる公開データセットとその関連研究成果を継続的に追跡するリビングレビューを提案する。
医用画像データセットの作成に関する重要な考察、データアノテーションのベストプラクティスの見直し、ショートカットの重要性と人口分布の多様性について議論し、ライフサイクル全体を通してデータセットを管理することの重要性を強調する。
論文 参考訳(メタデータ) (2025-01-18T11:03:59Z) - GazeSearch: Radiology Findings Search Benchmark [9.21918773048464]
医用アイトラッキングデータは、放射線医が医療画像をどのように視覚的に解釈するかを理解するための重要な情報源である。
現在の視線追跡データは分散され、処理されず、曖昧であり、意味のある洞察を導き出すことが困難である。
本研究では,目標となる視覚探索課題に触発された改良手法を提案する。
論文 参考訳(メタデータ) (2024-11-08T18:47:08Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Is in-domain data beneficial in transfer learning for landmarks
detection in x-ray images? [1.5348047288817481]
本研究では,大規模な自然画像データセットのみに事前学習したモデルに対して,小さな領域内X線画像データセットを使用することで,ランドマーク検出の精度が向上するかどうかを検討する。
我々の結果は、ドメイン内ソースデータセットを使用することで、ImageNetのドメイン外事前トレーニングに関して、限界があるか、まったく利益が得られないことを示している。
以上の結果から,大規模なアノテートデータセットが得られない場合の医用画像におけるロバストなランドマーク検出システムの開発が示唆された。
論文 参考訳(メタデータ) (2024-03-03T10:35:00Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Dataset Distillation for Medical Dataset Sharing [38.65823547986758]
データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等のパフォーマンスを達成するように、小さなデータセットを合成することができる。
新型コロナウイルスの胸部X線画像データセットによる実験結果から,胸部X線画像が不足していても高い検出性能が得られた。
論文 参考訳(メタデータ) (2022-09-29T07:49:20Z) - Computer-aided Tuberculosis Diagnosis with Attribute Reasoning
Assistance [58.01014026139231]
新しい大規模結核(TB)胸部X線データセット(TBX-Att)を提案する。
属性情報を利用してTBの分類とローカライズを行うための属性支援弱教師付きフレームワークを構築した。
提案モデルはTBX-Attデータセットで評価され,今後の研究の確かなベースラインとして機能する。
論文 参考訳(メタデータ) (2022-07-01T07:50:35Z) - Exploring and Distilling Posterior and Prior Knowledge for Radiology
Report Generation [55.00308939833555]
PPKEDには、Posterior Knowledge Explorer (PoKE), Prior Knowledge Explorer (PrKE), Multi-domain Knowledge Distiller (MKD)の3つのモジュールが含まれている。
PoKEは後部知識を探求し、視覚データのバイアスを軽減するために明確な異常な視覚領域を提供する。
PrKEは、以前の医学知識グラフ(医学知識)と以前の放射線学レポート(作業経験)から以前の知識を探り、テキストデータのバイアスを軽減する。
論文 参考訳(メタデータ) (2021-06-13T11:10:02Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Learning Invariant Feature Representation to Improve Generalization
across Chest X-ray Datasets [55.06983249986729]
我々は、トレーニングデータと同じデータセットでテストすると、ディープラーニングモデルが、異なるソースからデータセットでテストされると、パフォーマンスが低下し始めることを示す。
対戦型トレーニング戦略を用いることで、ネットワークはソース不変表現を学習せざるを得ないことを示す。
論文 参考訳(メタデータ) (2020-08-04T07:41:15Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - IntrA: 3D Intracranial Aneurysm Dataset for Deep Learning [18.163031102785904]
IntrAというオープンアクセス型3次元頭蓋内動脈瘤データセットを導入し、ポイントベースおよびメッシュベース分類とセグメンテーションモデルの適用を可能にした。
本データセットは頭蓋内動脈瘤の診断に有用であり, 頸部を摘出し, クリッピング術を施行した。
論文 参考訳(メタデータ) (2020-03-02T05:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。