論文の概要: Adversarial Fragility and Language Vulnerability in Clinical AI: A Systematic Audit of Diagnostic Collapse Under Imperceptible Perturbations and Cross-Lingual Drift in Low-Resource Healthcare Settings
- arxiv url: http://arxiv.org/abs/2605.16993v1
- Date: Sat, 16 May 2026 13:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.410059
- Title: Adversarial Fragility and Language Vulnerability in Clinical AI: A Systematic Audit of Diagnostic Collapse Under Imperceptible Perturbations and Cross-Lingual Drift in Low-Resource Healthcare Settings
- Title(参考訳): 臨床AIにおける対向的脆弱性と言語脆弱性:低リソース医療施設における非受容的摂動と言語間ドリフトによる診断的崩壊のシステム的調査
- Authors: Anthonio Oladimeji Gabriel, Ahmad Rufai Yusuf,
- Abstract要約: 本研究は, 臨床用AIにおける2つの安全性の脆弱性について, 対向画像の脆弱性と言語間診断ドリフトの2つの脆弱性について, 初めて系統的二重検査を行ったものである。
COVID-QU-Ex胸部X線データセットを微調整したDenseNet121を用いて、診断精度が89.3%から62.0%に低下することを示した。
Llama3.1:8bおよびNatLAS(NLASAT)を標準英語、ナイジェリア・ピジン(ナイジャ)、ヨルバ・インフレクテッド・インフレクテッド・イングリッシュ(英語版)で紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current clinical artificial intelligence (AI) systems are evaluated almost exclusively on clean, standardised, English-language inputs, conditions that do not reflect the realities of healthcare delivery in low-resource settings. This study presents the first systematic dual audit of two orthogonal safety vulnerabilities in clinical AI: adversarial image fragility and cross-lingual diagnostic drift. Using DenseNet121, the architecture underlying CheXNet, fine-tuned on the COVID-QU-Ex chest X-ray dataset (85,318 images; COVID-19, Non-COVID Pneumonia, Normal), we demonstrate that diagnostic accuracy collapses from 89.3% to 62.0% under a Fast Gradient Method (FGM) perturbation of epsilon=0.021, a magnitude imperceptible to the human eye. Standard defensive strategies including Gaussian smoothing and ensemble voting failed to restore clinical safety. In a parallel language fragility experiment, we tested Llama3.1:8b and NatLAS (N-ATLAS) on 20 COVID-19 clinical cases presented in Standard English, Nigerian Pidgin (Naija), and Yoruba-inflected English. Both models exhibited significant accuracy degradation: Llama3.1:8b dropped from 80.0% to 65.0% on Pidgin; NatLAS, an African-context model, collapsed from 85.0% to 55.0%, with diagnosis consistency falling to 50%. These findings establish a quantitative failure envelope for clinical AI under conditions representative of Primary Health Centre (PHC) deployment in Nigeria, and motivate urgent calls for adversarially hardened, linguistically inclusive clinical AI architectures.
- Abstract(参考訳): 現在の臨床人工知能(AI)システムはほとんどが、クリーンで標準化された英語入力、低リソース環境での医療提供の現実を反映しない条件に基づいて評価されている。
本研究は, 臨床用AIにおける2つの直交安全性の脆弱性について, 対向画像の脆弱性と言語間診断ドリフトの2つについて, 初めて系統的二重検査を行ったものである。
COVID-QU-Exの胸部X線データセット(85,318枚、COVID-19、非COVID肺炎、ノーマル)を微調整したアーキテクチャであるDenseNet121を用いて、診断精度が89.3%から62.0%に低下することを示した。
ガウスの円滑化やアンサンブル投票を含む標準的な防衛戦略は、臨床の安全性を回復することはできなかった。
Llama3.1:8bおよびNatLAS(N-ATLAS)を標準英語、ナイジェリア・ピジン(ナイジャ)、ヨルバ・インフレクテッド・インフレクテッド・イングリッシュ(英語版)で紹介した。
Llama3.1:8b は 80.0% から 65.0% に低下し、アフリカ・コンテクスト・モデルであるNatLAS は 85.0% から 55.0% に低下し、診断一貫性は 50% に低下した。
これらの知見はナイジェリアにおけるプライマリ・ヘルス・センター(PHC)の展開に代表される条件下で臨床AIの定量的失敗の封筒を確立し、対向的に硬化し言語的に包摂された臨床AIアーキテクチャーに対する緊急の要求を動機付けている。
関連論文リスト
- A Breast Vision Pathology Foundation Model for Real-world Clinical Utility [65.57568187389113]
a bfBRAVE, a breast-adaptive pathology foundation model developed and evaluation using a total resources of 101,638 breast wholeslide images。
臨床ワークフローにおけるBRAVEの実践的役割は、通常のAI支援による第2レビューから低リスクのケースを安全に排除すること、そしてさらなる評価のためのケースの優先順位付けなどである。
論文 参考訳(メタデータ) (2026-05-06T07:44:39Z) - Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - Clinician input steers frontier AI models toward both accurate and harmful decisions [10.599240857217811]
8つのフロンティアモデルにまたがる21の言語モデル (LLM) を, 差分診断生成と次のステップ勧告に基づいて評価した。
専門的な文脈は、21モデル全体にわたる正しい最終診断の包含を著しく改善した。
GPT-4o 実験では, 臨床症状の明確な不確実性信号により, 対側的文脈での診断性能が向上した。
論文 参考訳(メタデータ) (2026-03-14T23:47:53Z) - Comparative Analysis of Deep Learning Architectures for Multi-Disease Classification of Single-Label Chest X-rays [1.1470070927586018]
本研究では,多型胸部疾患分類のための7つのディープラーニングアーキテクチャの比較検討を行った。
ConvNeXt-Tinyは92.31%の精度、95.70%のAUROCを達成し、MobileNetV2は3.5Mパラメータ、90.42%の精度、94.10%のAUROCを達成した。
以上の結果より,高精度胸部X線分類が過剰な計算資源を伴わずに達成できることが示唆された。
論文 参考訳(メタデータ) (2026-03-11T07:52:36Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - Evaluating Spoken Language as a Biomarker for Automated Screening of Cognitive Impairment [37.40606157690235]
言語と言語の変化は、アルツハイマー病と関連する認知症を早期に予測できる。
音声言語からのADRDスクリーニングと重度予測のための機械学習手法の評価を行った。
リスク階層化と言語的特徴重要度分析は、予測の解釈可能性と臨床的有用性を高めた。
論文 参考訳(メタデータ) (2025-01-30T20:17:17Z) - Utilizing Machine Learning Models to Predict Acute Kidney Injury in Septic Patients from MIMIC-III Database [0.0]
セプシス(Sepsis)は、体が感染に対して正しく反応しない重篤な疾患である。
敗血症患者では、約50%が急性腎障害(AKI)を発症する。
敗血症患者の特徴に基づいてAKIを正確に予測できるモデルは早期発見と介入に不可欠である。
論文 参考訳(メタデータ) (2024-12-04T22:05:35Z) - Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesions [0.8864540224289991]
患者数の増加とより包括的な診断の必要性により、病理学者は作業負荷の増大に直面している。
われわれは,全スライド画像に基づいて皮膚メラノサイト性病変をトリアージする人工知能(AI)モデルを開発した。
論文 参考訳(メタデータ) (2024-10-14T13:49:04Z) - Detection of subclinical atherosclerosis by image-based deep learning on chest x-ray [86.38767955626179]
460胸部X線で冠状動脈カルシウム(CAC)スコアを予測する深層学習アルゴリズムを開発した。
AICACモデルの診断精度は, 曲線下領域(AUC)で評価された。
論文 参考訳(メタデータ) (2024-03-27T16:56:14Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。