論文の概要: CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models
- arxiv url: http://arxiv.org/abs/2406.06007v3
- Date: Sun, 03 Nov 2024 16:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:45:30.838551
- Title: CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models
- Title(参考訳): CARES:医療ビジョン言語モデルにおける信頼性の総合ベンチマーク
- Authors: Peng Xia, Ze Chen, Juanxi Tian, Yangrui Gong, Ruibo Hou, Yue Xu, Zhenbang Wu, Zhiyuan Fan, Yiyang Zhou, Kangyu Zhu, Wenhao Zheng, Zhaoyang Wang, Xiao Wang, Xuchao Zhang, Chetan Bansal, Marc Niethammer, Junzhou Huang, Hongtu Zhu, Yun Li, Jimeng Sun, Zongyuan Ge, Gang Li, James Zou, Huaxiu Yao,
- Abstract要約: 我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
- 参考スコア(独自算出の注目度): 92.04812189642418
- License:
- Abstract: Artificial intelligence has significantly impacted medical applications, particularly with the advent of Medical Large Vision Language Models (Med-LVLMs), sparking optimism for the future of automated and personalized healthcare. However, the trustworthiness of Med-LVLMs remains unverified, posing significant risks for future model deployment. In this paper, we introduce CARES and aim to comprehensively evaluate the Trustworthiness of Med-LVLMs across the medical domain. We assess the trustworthiness of Med-LVLMs across five dimensions, including trustfulness, fairness, safety, privacy, and robustness. CARES comprises about 41K question-answer pairs in both closed and open-ended formats, covering 16 medical image modalities and 27 anatomical regions. Our analysis reveals that the models consistently exhibit concerns regarding trustworthiness, often displaying factual inaccuracies and failing to maintain fairness across different demographic groups. Furthermore, they are vulnerable to attacks and demonstrate a lack of privacy awareness. We publicly release our benchmark and code in https://cares-ai.github.io/.
- Abstract(参考訳): 人工知能は医療応用に大きな影響を与えており、特に医療大ビジョン言語モデル(Med-LVLMs)が出現し、自動化されたパーソナライズされた医療の未来に対する楽観を喚起している。
しかし、Med-LVLMsの信頼性は検証されていないままであり、将来のモデル展開には重大なリスクが伴う。
本稿では,CARESを紹介し,医療領域全体での医療LVLMの信頼性を総合的に評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
CARESは、クローズドとオープンエンドの両方の形式で約41Kの質問応答ペアで構成され、16の医療画像モダリティと27の解剖学的領域をカバーしている。
分析の結果,信頼度に関する懸念が一貫して現れ,事実的不正確さや集団間の公正さの維持が困難であることが判明した。
さらに、攻撃に対して脆弱であり、プライバシー意識の欠如を示している。
私たちはベンチマークとコードをhttps://cares-ai.github.io/で公開しています。
関連論文リスト
- Ensuring Safety and Trust: Analyzing the Risks of Large Language Models in Medicine [41.71754418349046]
安全で信頼性の高い医療AIのための5つの重要な原則と10の特定の側面を提案します。
この包括的枠組みの下では、1000人の専門家に検証された質問を伴う新しいMedGuardベンチマークを導入する。
11個の LLM の評価結果から,現行の言語モデルは安全アライメント機構によらず,ベンチマークのほとんどにおいて性能が劣っていることが示唆された。
この研究は、人間の監視の必要性とAI安全ガードレールの実装を浮き彫りにして、重大な安全性のギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-20T06:34:32Z) - Which Client is Reliable?: A Reliable and Personalized Prompt-based Federated Learning for Medical Image Question Answering [51.26412822853409]
本稿では,医学的視覚的質問応答(VQA)モデルのための,パーソナライズド・フェデレーションド・ラーニング(pFL)手法を提案する。
提案手法では,学習可能なプロンプトをTransformerアーキテクチャに導入し,膨大な計算コストを伴わずに,多様な医療データセット上で効率的にトレーニングする。
論文 参考訳(メタデータ) (2024-10-23T00:31:17Z) - MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models [20.781551849965357]
医用ビジュアル質問回答(VQA)ベンチマークデータセットであるMedConfusionを紹介した。
現状のモデルは、画像のペアによって容易に混同され、それ以外は視覚的に異なっており、医療専門家にとってはっきりと区別されている。
また、医療における信頼性が高く信頼性の高いMLLMの新しい世代の設計に役立つモデル失敗の共通パターンを抽出する。
論文 参考訳(メタデータ) (2024-09-23T18:59:37Z) - A Survey on Trustworthiness in Foundation Models for Medical Image Analysis [27.876946673940452]
医用画像における基礎モデルの新たな分類法を提案する。
本研究は, セグメンテーション, 医療報告生成, 医療質問と回答(Q&A), 疾患診断に焦点をあてる。
我々の分析は、医用画像解析において、信頼できるAIに向けて進むための必須事項である。
論文 参考訳(メタデータ) (2024-07-03T18:07:57Z) - Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Medical Foundation Models are Susceptible to Targeted Misinformation
Attacks [3.252906830953028]
大規模言語モデル(LLM)は幅広い医学知識を持ち、多くの領域にわたって医療情報を推論することができる。
モデルの重量のわずか1.1%を目標に操作することで、医学におけるLSMの脆弱性を実証する。
我々は1038件の誤った生物医学的事実のセットでこの知見を検証した。
論文 参考訳(メタデータ) (2023-09-29T06:44:36Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。