論文の概要: Interpretable Solutions for Breast Cancer Diagnosis with Grammatical
Evolution and Data Augmentation
- arxiv url: http://arxiv.org/abs/2401.14255v1
- Date: Thu, 25 Jan 2024 15:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:06:50.997140
- Title: Interpretable Solutions for Breast Cancer Diagnosis with Grammatical
Evolution and Data Augmentation
- Title(参考訳): 文法的進化とデータ拡張による乳癌診断の解釈解法
- Authors: Yumnah Hasan, Allan de Lima, Fatemeh Amerehi, Darian Reyes Fernandez
de Bulnes, Patrick Healy, and Conor Ryan
- Abstract要約: 我々は、新しい合成データ生成技術であるSTEMを用いて、文法進化(GE)によって生成されたモデルを訓練する方法を示す。
本手法はDigital Database for Screening Mammography(DDSM)とウィスコンシン乳癌(WBC)データセットで検証する。
GE由来のモデルは、解釈可能な解を維持しながら、最良のAUCを示すことを示す。
- 参考スコア(独自算出の注目度): 0.15705429611931054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical imaging diagnosis increasingly relies on Machine Learning (ML)
models. This is a task that is often hampered by severely imbalanced datasets,
where positive cases can be quite rare. Their use is further compromised by
their limited interpretability, which is becoming increasingly important. While
post-hoc interpretability techniques such as SHAP and LIME have been used with
some success on so-called black box models, the use of inherently
understandable models makes such endeavors more fruitful. This paper addresses
these issues by demonstrating how a relatively new synthetic data generation
technique, STEM, can be used to produce data to train models produced by
Grammatical Evolution (GE) that are inherently understandable. STEM is a
recently introduced combination of the Synthetic Minority Oversampling
Technique (SMOTE), Edited Nearest Neighbour (ENN), and Mixup; it has previously
been successfully used to tackle both between class and within class imbalance
issues. We test our technique on the Digital Database for Screening Mammography
(DDSM) and the Wisconsin Breast Cancer (WBC) datasets and compare Area Under
the Curve (AUC) results with an ensemble of the top three performing
classifiers from a set of eight standard ML classifiers with varying degrees of
interpretability. We demonstrate that the GE-derived models present the best
AUC while still maintaining interpretable solutions.
- Abstract(参考訳): 医療画像診断は機械学習(ML)モデルにますます依存している。
これは、非常に不均衡なデータセットによってしばしば妨げられるタスクであり、肯定的なケースは非常に稀である。
彼らの使用は、その限定的な解釈可能性によってさらに損なわれ、ますます重要になりつつある。
SHAPやLIMEのようなポストホックな解釈可能性技術は、いわゆるブラックボックスモデルでいくつかの成功を収めてきたが、本質的に理解可能なモデルの使用は、そのような取り組みをより実りあるものにしている。
本稿では, 比較的新しい合成データ生成手法であるSTEMを用いて, 文法進化(GE)が生み出すモデルを学習し, 本質的に理解可能なデータを生成する方法を示す。
STEMは、最近導入されたSynthetic Minority Oversampling Technique (SMOTE)、Edited Nearest Neighbour (ENN)、Mixupの組み合わせである。
本手法はDDSM(Digital Database for Screening Mammography)とウィスコンシン乳がん(WBC)データセットを用いてテストし,AUC(Area Under the Curve)の結果と,解釈可能性の異なる8種類の標準ML分類器の上位3つの性能分類器のアンサンブルを比較した。
GE由来のモデルは、解釈可能な解を維持しながら、最良のAUCを示すことを示す。
関連論文リスト
- MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - STEM Rebalance: A Novel Approach for Tackling Imbalanced Datasets using
SMOTE, Edited Nearest Neighbour, and Mixup [0.20482269513546458]
医用画像における非バランスなデータセットは、スクイードクラスの割合と異常な症例の不足によって特徴づけられる。
本稿では,Mixup Augmentation を用いて新たなデータポイントを汎用的なビジナル分布として生成する可能性について検討する。
不均衡なデータセットが一般的である乳癌の問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-11-13T17:45:28Z) - MCRAGE: Synthetic Healthcare Data for Fairness [3.0089659534785853]
そこで本稿では,MCRAGE (Generative Modeling) の強化による不均衡データセットの増大によるマイノリティクラス再バランスを提案する。
MCRAGEは、デノイング拡散確率モデル (Denoising Diffusion Probabilistic Model, CDDPM) を訓練し、未表現のクラスから高品質な合成EHRサンプルを生成する。
この合成データを使用して、既存の不均衡なデータセットを増大させ、その結果、すべてのクラスにまたがるよりバランスの取れた分散を実現します。
論文 参考訳(メタデータ) (2023-10-27T19:02:22Z) - SC-MIL: Supervised Contrastive Multiple Instance Learning for Imbalanced
Classification in Pathology [2.854576370929018]
医療画像における機械学習の問題は、しばしば稀な疾患に対処する。
病理画像では、別のレベルの不均衡があり、正にラベル付けされた全スライド画像(WSI)が与えられると、その内部のピクセルのごく一部だけが正のラベルに寄与する。
本稿では,バッグレベルの表現から最適な分類器学習へと,段階的に移行するラベル不均衡の存在下での協調学習型MILフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T16:28:15Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。
本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。
テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文 参考訳(メタデータ) (2022-02-09T04:12:30Z) - METGAN: Generative Tumour Inpainting and Modality Synthesis in Light
Sheet Microscopy [4.872960046536882]
本稿では,実解剖情報を活用し,腫瘍の現実的な画像ラベル対を生成する新しい生成法を提案する。
解剖学的画像とラベルのためのデュアルパス生成器を構築し, 独立して事前学習されたセグメンタによって制約された, サイクル一貫性のある設定で学習する。
生成した画像は,既存の手法に比べて定量的に顕著に改善された。
論文 参考訳(メタデータ) (2021-04-22T11:18:17Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。