論文の概要: Towards reliable use of artificial intelligence to classify otitis media using otoscopic images: Addressing bias and improving data quality
- arxiv url: http://arxiv.org/abs/2507.18842v1
- Date: Thu, 24 Jul 2025 22:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.776606
- Title: Towards reliable use of artificial intelligence to classify otitis media using otoscopic images: Addressing bias and improving data quality
- Title(参考訳): 耳鏡画像を用いた耳炎メディアの分類における人工知能の信頼性向上に向けて:バイアスへの対処とデータ品質の向上
- Authors: Yixi Xu, Al-Rahim Habib, Graeme Crossland, Hemi Patel, Chris Perry, Kris Bock, Tony Lian, William B. Weeks, Rahul Dodhia, Juan Lavista Ferres, Narinder Pal Singh,
- Abstract要約: 本研究は, 定量的および定性的手法を用いて, 3つの公開耳鏡画像データセット(Chile, Ohio, USA, T"urkiye")を体系的に評価した。
定量分析の結果,チリとオハイオのデータセットには有意な偏りが認められた。
標準化されたイメージングプロトコル、多様なデータセットのインクルージョン、改善されたラベリングメソッドを通じて、これらのバイアスに対処することが不可欠である。
- 参考スコア(独自算出の注目度): 1.5600956077751196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ear disease contributes significantly to global hearing loss, with recurrent otitis media being a primary preventable cause in children, impacting development. Artificial intelligence (AI) offers promise for early diagnosis via otoscopic image analysis, but dataset biases and inconsistencies limit model generalizability and reliability. This retrospective study systematically evaluated three public otoscopic image datasets (Chile; Ohio, USA; T\"urkiye) using quantitative and qualitative methods. Two counterfactual experiments were performed: (1) obscuring clinically relevant features to assess model reliance on non-clinical artifacts, and (2) evaluating the impact of hue, saturation, and value on diagnostic outcomes. Quantitative analysis revealed significant biases in the Chile and Ohio, USA datasets. Counterfactual Experiment I found high internal performance (AUC > 0.90) but poor external generalization, because of dataset-specific artifacts. The T\"urkiye dataset had fewer biases, with AUC decreasing from 0.86 to 0.65 as masking increased, suggesting higher reliance on clinically meaningful features. Counterfactual Experiment II identified common artifacts in the Chile and Ohio, USA datasets. A logistic regression model trained on clinically irrelevant features from the Chile dataset achieved high internal (AUC = 0.89) and external (Ohio, USA: AUC = 0.87) performance. Qualitative analysis identified redundancy in all the datasets and stylistic biases in the Ohio, USA dataset that correlated with clinical outcomes. In summary, dataset biases significantly compromise reliability and generalizability of AI-based otoscopic diagnostic models. Addressing these biases through standardized imaging protocols, diverse dataset inclusion, and improved labeling methods is crucial for developing robust AI solutions, improving high-quality healthcare access, and enhancing diagnostic accuracy.
- Abstract(参考訳): 耳疾患は世界の聴覚障害に大きく寄与し、再発性中耳炎が小児の主要な予防的原因となり、発達に影響を及ぼす。
人工知能(AI)は、超音波画像解析による早期診断を約束するが、データセットバイアスと矛盾により、モデルの一般化性と信頼性が制限される。
本研究は, 定量的および定性的手法を用いて, 3つの公的な耳鏡画像データセット(チリ, オハイオ, アメリカ, T\"urkiye")を体系的に評価した。
1) 臨床的に関係のある特徴を排除し, モデル依存度を非クリニカルアーティファクトで評価し, 2) 色調, 飽和度, および診断結果に与える影響を評価する。
定量分析の結果,チリとオハイオのデータセットには有意な偏りが認められた。
対実実験 データセット固有のアーティファクトのため、高い内部性能(AUC > 0.90)を示したが、外部の一般化は不十分であった。
T\"urkiye"データセットのバイアスは少なく、AUCはマスキングの増加に伴い0.86から0.65に減少し、臨床的に有意な特徴への依存度が高かった。
対物実験IIではチリとオハイオのデータセットに共通するアーティファクトが特定された。
チリのデータセットから臨床的に無関係な特徴に基づいて訓練されたロジスティック回帰モデルは、高い内部(AUC = 0.89)と外部(Ohio, USA: AUC = 0.87)のパフォーマンスを達成した。
質的分析により、オハイオ州のすべてのデータセットの冗長性と、臨床結果と相関するスタイル的バイアスが同定された。
要約すると、データセットバイアスはAIに基づく耳科診断モデルの信頼性と一般化性を著しく損なう。
標準化されたイメージングプロトコル、多様なデータセットのインクルージョン、改善されたラベル付け手法を通じてこれらのバイアスに対処することは、堅牢なAIソリューションの開発、高品質な医療アクセスの改善、診断精度の向上に不可欠である。
関連論文リスト
- Predictive Representativity: Uncovering Racial Bias in AI-based Skin Cancer Detection [0.0]
本稿では,予測表現性(PR)の概念を紹介する。
PRは、データセットの構成から成果レベルのエクイティへと焦点をシフトします。
解析の結果,皮膚光タイプによる性能の相違が明らかとなった。
論文 参考訳(メタデータ) (2025-07-10T22:21:06Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。
本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。
G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文 参考訳(メタデータ) (2025-03-13T02:16:48Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - The Limits of Fair Medical Imaging AI In The Wild [43.97266228706059]
医療用AIが人口統計エンコーディングをどのように利用するかを検討する。
医療画像AIは、疾患分類において、人口動態のショートカットを利用することを確認した。
人口統計属性のエンコーディングが少ないモデルは、しばしば「グローバルに最適」であることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:59:50Z) - The Utility of the Virtual Imaging Trials Methodology for Objective Characterization of AI Systems and Training Data [1.6040478776985583]
臨床および仮想CTとCXRを用いた畳み込みニューラルネットワークを用いた新型コロナウイルスの診断例について検討した。
複数のAIモデルは、多様なデータセットにわたる3D ResNet-likeと2D EfficientNetv2アーキテクチャを使用して開発、テストされた。
VITアプローチは、モデルの透明性と信頼性を高めるために使用することができ、AIのパフォーマンスを駆動する要因に関する微妙な洞察を提供し、実験的および臨床的設定のギャップを埋める。
論文 参考訳(メタデータ) (2023-08-17T19:12:32Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z) - Key-Exchange Convolutional Auto-Encoder for Data Augmentation in Early Knee Osteoarthritis Detection [8.193689534916988]
Key-Exchange Convolutional Auto-Encoder (KECAE)は、初期のKOA分類のためのAIベースのデータ拡張戦略である。
我々のモデルは、合成画像を生成する新しいキー交換機構を備えた畳み込みオートエンコーダを用いる。
実験結果から,KECAEが生成したデータはKOA分類モデルの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-02-26T15:45:19Z) - Learning brain MRI quality control: a multi-factorial generalization
problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。
分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。
我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文 参考訳(メタデータ) (2022-05-31T15:46:44Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。