論文の概要: 6 Fingers, 1 Kidney: Natural Adversarial Medical Images Reveal Critical Weaknesses of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.04238v1
- Date: Wed, 03 Dec 2025 20:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.860676
- Title: 6 Fingers, 1 Kidney: Natural Adversarial Medical Images Reveal Critical Weaknesses of Vision-Language Models
- Title(参考訳): 6本の指、1キドニー: 自然界の医療画像から視覚・言語モデルの致命的弱さが判明
- Authors: Leon Mayer, Piotr Kalinowski, Caroline Ebersbach, Marcel Knopp, Tim Rädsch, Evangelia Christodoulou, Annika Reinke, Fiona R. Kolbinger, Lena Maier-Hein,
- Abstract要約: 自然発生の稀な解剖学的変異からなる最初のベンチマークであるAdversarialAnatomyBenchを紹介する。
平均精度は 典型的な74%から 非定型解剖では29%に低下しました
GPT-5、Gemini 2.5 Pro、Llama 4 Maverickでさえ、41-51%のパフォーマンス低下を示した。
- 参考スコア(独自算出の注目度): 3.1366422827373808
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language models are increasingly integrated into clinical workflows. However, existing benchmarks primarily assess performance on common anatomical presentations and fail to capture the challenges posed by rare variants. To address this gap, we introduce AdversarialAnatomyBench, the first benchmark comprising naturally occurring rare anatomical variants across diverse imaging modalities and anatomical regions. We call such variants that violate learned priors about "typical" human anatomy natural adversarial anatomy. Benchmarking 22 state-of-the-art VLMs with AdversarialAnatomyBench yielded three key insights. First, when queried with basic medical perception tasks, mean accuracy dropped from 74% on typical to 29% on atypical anatomy. Even the best-performing models, GPT-5, Gemini 2.5 Pro, and Llama 4 Maverick, showed performance drops of 41-51%. Second, model errors closely mirrored expected anatomical biases. Third, neither model scaling nor interventions, including bias-aware prompting and test-time reasoning, resolved these issues. These findings highlight a critical and previously unquantified limitation in current VLM: their poor generalization to rare anatomical presentations. AdversarialAnatomyBench provides a foundation for systematically measuring and mitigating anatomical bias in multimodal medical AI systems.
- Abstract(参考訳): 視覚言語モデルは、ますます臨床ワークフローに統合されている。
しかし、既存のベンチマークは主に一般的な解剖学的プレゼンテーションのパフォーマンスを評価しており、稀な変異によって生じる課題を捉えていない。
このギャップに対処するため,Adversarial AnatomyBenchを導入する。このベンチマークは,様々な画像モダリティと解剖学的領域で自然に発生する稀な解剖学的変異からなる最初のベンチマークである。
我々は、人間解剖学の「典型的」自然対人解剖学に関する学識に反する、このような変種を呼ぶ。
AdversarialAnatomyBenchによる22の最先端VLMのベンチマークは、3つの重要な洞察を得た。
第一に、基本的な医学的知覚課題を問うと、平均的精度は、典型的には74%から非定型解剖では29%に低下した。
GPT-5、Gemini 2.5 Pro、Llama 4 Maverickでさえ、41-51%のパフォーマンス低下を示した。
第二に、モデルエラーは予想される解剖学的バイアスを忠実に反映した。
第3に、バイアス対応のプロンプトやテストタイム推論を含むモデルスケーリングや介入は、これらの問題を解決していません。
これらの知見は、現在のVLMにおける批判的かつ未定量な限界、すなわち希少な解剖学的プレゼンテーションへの一般化の欠如を浮き彫りにしている。
AdversarialAnatomyBenchは、マルチモーダル医療AIシステムにおいて、解剖学的バイアスを系統的に測定し緩和する基盤を提供する。
関連論文リスト
- TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Can General-Purpose Omnimodels Compete with Specialists? A Case Study in Medical Image Segmentation [14.429221851116814]
多様なデータモダリティを処理できる汎用オムニモデルは、知識集約ドメインの高度に専門化されたモデルと同等に機能する。
本研究では、ドメイン固有のディープラーニングモデルに対して、最先端のオムニモデルのゼロショット性能を解析する比較研究を行う。
以上の結果から,現在のオムニモデルはまだスペシャリストの普遍的な代替にはなっていないが,その特異な強みはスペシャリストモデルとの相補的な役割を示唆している。
論文 参考訳(メタデータ) (2025-08-31T14:22:33Z) - DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis? [1.1094764204428438]
臨床ビジュアル推論のための最初のベンチマークであるDrVD-Benchを提案する。
DrVD-Benchは、ビジュアルエビデンス、推論軌道評価、レポート生成評価の3つのモジュールで構成されている。
本ベンチマークでは,20のタスクタイプ,17の診断カテゴリ,CT,MRI,超音波,X線撮影,病理の5つの画像モダリティについて検討した。
論文 参考訳(メタデータ) (2025-05-30T03:33:25Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - A Textbook Remedy for Domain Shifts: Knowledge Priors for Medical Image Analysis [48.84443450990355]
ディープネットワークは、医学的なスキャンに適用すると、例外のない状況で失敗することが多いため、自然画像の解析において広く成功している。
胸部X線や皮膚病変画像の文脈において、異なる病院から採取したデータや、性別、人種などの人口統計学的変数によって構築されたデータなど、ドメインシフトに対するモデル感度に焦点をあてる。
医学教育からインスピレーションを得て,自然言語で伝達される明示的な医学知識を基盤としたディープネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T17:55:02Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。
まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。
第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文 参考訳(メタデータ) (2022-09-27T15:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。