論文の概要: SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks
- arxiv url: http://arxiv.org/abs/2411.19688v1
- Date: Fri, 29 Nov 2024 13:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 20:28:08.019044
- Title: SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks
- Title(参考訳): SURE-VQA:医療用VQAタスクにおけるロバストネス評価の体系的理解
- Authors: Kim-Celine Kahl, Selen Erkan, Jeremias Traub, Carsten T. Lüth, Klaus Maier-Hein, Lena Maier-Hein, Paul F. Jaeger,
- Abstract要約: VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。
我々の研究はSURE-VQAと呼ばれる新しいフレームワークを導入し、現在の落とし穴を克服するための3つの重要な要件を中心にしています。
この枠組みの妥当性を示すために,3つの医療データセットにまたがる様々な微調整手法の堅牢性について検討した。
- 参考スコア(独自算出の注目度): 2.033441577169909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have great potential in medical tasks, like Visual Question Answering (VQA), where they could act as interactive assistants for both patients and clinicians. Yet their robustness to distribution shifts on unseen data remains a critical concern for safe deployment. Evaluating such robustness requires a controlled experimental setup that allows for systematic insights into the model's behavior. However, we demonstrate that current setups fail to offer sufficiently thorough evaluations, limiting their ability to accurately assess model robustness. To address this gap, our work introduces a novel framework, called SURE-VQA, centered around three key requirements to overcome the current pitfalls and systematically analyze the robustness of VLMs: 1) Since robustness on synthetic shifts does not necessarily translate to real-world shifts, robustness should be measured on real-world shifts that are inherent to the VQA data; 2) Traditional token-matching metrics often fail to capture underlying semantics, necessitating the use of large language models (LLMs) for more accurate semantic evaluation; 3) Model performance often lacks interpretability due to missing sanity baselines, thus meaningful baselines should be reported that allow assessing the multimodal impact on the VLM. To demonstrate the relevance of this framework, we conduct a study on the robustness of various fine-tuning methods across three medical datasets with four different types of distribution shifts. Our study reveals several important findings: 1) Sanity baselines that do not utilize image data can perform surprisingly well; 2) We confirm LoRA as the best-performing PEFT method; 3) No PEFT method consistently outperforms others in terms of robustness to shifts. Code is provided at https://github.com/IML-DKFZ/sure-vqa.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚質問応答(VQA)のような医療タスクにおいて大きな可能性を秘めている。
しかし、見知らぬデータに対する分散シフトに対する堅牢性は、安全なデプロイメントにとって重要な関心事である。
このような堅牢性を評価するには、モデルの振る舞いに関する体系的な洞察を可能にする、制御された実験的な設定が必要である。
しかし、現在の設定では十分な徹底的な評価が得られず、モデルロバスト性を正確に評価する能力が制限されていることを実証する。
このギャップに対処するため、我々の研究はSURE-VQAと呼ばれる新しいフレームワークを導入し、現在の落とし穴を克服し、VLMの堅牢さを体系的に分析する3つの重要な要件を中心にしています。
1) 合成シフトのロバスト性は必ずしも実世界のシフトに変換されないため、VQAデータに固有の実世界のシフトでロバスト性を測定する必要がある。
2) 従来のトークンマッチングメトリクスは、しばしば基礎となるセマンティクスを捉えるのに失敗し、より正確なセマンティクス評価のために大きな言語モデル(LLM)を使用する必要がある。
3) モデル性能は, 健全性基準の欠如による解釈性に欠けることが多いため, VLMに対するマルチモーダルな影響を評価するために, 有意義なベースラインを報告すべきである。
本枠組みの妥当性を示すため,4種類の分布シフトを持つ3つの医療データセットにおける各種微調整手法の堅牢性について検討した。
我々の研究は、いくつかの重要な発見を明らかにしている。
1)画像データを使用しない衛生基準は、驚くほど良好に機能する。
2) PEFT法としては LoRA が最適であることを確認した。
3) PEFT法は, 変化に対する堅牢性において, 他者より一貫して優れるものではない。
コードはhttps://github.com/IML-DKFZ/sure-vqaで提供されている。
関連論文リスト
- Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。
我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。
我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Conformal uncertainty quantification to evaluate predictive fairness of foundation AI model for skin lesion classes across patient demographics [8.692647930497936]
我々は、コンフォメーション解析を用いて、視覚変換器に基づく基礎モデルの予測不確かさを定量化する。
基礎モデルの特徴埋め込みの堅牢性を評価するために、公正度測定としてどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-03-31T08:06:00Z) - Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。
最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。
提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2025-01-14T12:51:34Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Shifts 2.0: Extending The Dataset of Real Distributional Shifts [25.31085238930148]
シフトデータセットを、高い社会的重要性を持つ工業的、高リスクな応用から得られた2つのデータセットで拡張する。
3次元磁気共鳴脳画像における白質多発性硬化症病変の分節化の課題と船舶の電力消費量の推定について検討した。
これらの新しいデータセットは、研究者が新しい状況における堅牢な一般化と不確実性推定をさらに探求することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T16:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。