論文の概要: Visual concept ranking uncovers medical shortcuts used by large multimodal models
- arxiv url: http://arxiv.org/abs/2602.05096v1
- Date: Wed, 04 Feb 2026 22:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.64799
- Title: Visual concept ranking uncovers medical shortcuts used by large multimodal models
- Title(参考訳): 大規模マルチモーダルモデルを用いた医用ショートカットの視覚概念ランキング
- Authors: Joseph D. Janizek, Sonnet Xu, Junayd Lateef, Roxana Daneshjou,
- Abstract要約: 大規模マルチモーダルモデル(LMM)において重要な視覚概念を識別する手法を提案する。
臨床皮膚画像から悪性皮膚病変を分類する作業に主に焦点をあてる。
- 参考スコア(独自算出の注目度): 1.1082922912570348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the reliability of machine learning models in safety-critical domains such as healthcare requires auditing methods that can uncover model shortcomings. We introduce a method for identifying important visual concepts within large multimodal models (LMMs) and use it to investigate the behaviors these models exhibit when prompted with medical tasks. We primarily focus on the task of classifying malignant skin lesions from clinical dermatology images, with supplemental experiments including both chest radiographs and natural images. After showing how LMMs display unexpected gaps in performance between different demographic subgroups when prompted with demonstrating examples, we apply our method, Visual Concept Ranking (VCR), to these models and prompts. VCR generates hypotheses related to different visual feature dependencies, which we are then able to validate with manual interventions.
- Abstract(参考訳): 医療のような安全クリティカルな領域における機械学習モデルの信頼性を保証するには、モデルの欠点を明らかにするための監査方法が必要である。
大規模マルチモーダルモデル (LMM) において重要な視覚概念を識別する手法を導入し, 医療的タスクによってこれらのモデルが示す行動について検討する。
臨床皮膚画像から悪性皮膚病変を分類する作業を中心に,胸部X線写真や自然画像などの補助的な実験を行った。
実例で示すと、LMMが異なる階層群間での予期せぬ性能差を示す様子を示した後、これらのモデルとプロンプトに、我々の方法である視覚概念ランキング(VCR)を適用した。
VCRは、異なる視覚的特徴依存性に関連する仮説を生成し、手動による介入で検証することができる。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Cross-model Mutual Learning for Exemplar-based Medical Image Segmentation [25.874281336821685]
Exemplar-based Medical Image(CMEMS)のためのクロスモデル相互学習フレームワーク
外来医用画像のためのクロスモデル相互学習フレームワーク(CMEMS)について紹介する。
論文 参考訳(メタデータ) (2024-04-18T00:18:07Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning [26.425784890859738]
MaCoは、マスク付きコントラスト型胸部X線基礎モデルである。
様々な医療画像のタスクに対して、きめ細かい画像理解とゼロショット学習を同時に達成する。
分類、セグメンテーション、検出、句接地といったタスクにまたがる、最先端の10のアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-12T01:29:37Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Towards Trustable Skin Cancer Diagnosis via Rewriting Model's Decision [12.306688233127312]
本稿では,モデルトレーニングプロセスにHuman-in-the-loopフレームワークを導入する。
提案手法は, 共起因子を自動的に検出する。
容易に得られる概念の模範を用いて、相反する概念を学習することができる。
論文 参考訳(メタデータ) (2023-03-02T01:02:18Z) - TorchEsegeta: Framework for Interpretability and Explainability of
Image-based Deep Learning Models [0.0]
臨床医はしばしば自動画像処理アプローチ、特にディープラーニングに基づく手法の適用に懐疑的である。
本稿では,アルゴリズムの決定に最も影響を及ぼす解剖学的領域を記述することによって,ディープラーニングアルゴリズムの結果の解釈と説明を支援するアプローチを提案する。
ディープラーニングモデルに様々な解釈可能性および説明可能性技術を適用するための統合フレームワークであるTorchEsegetaを提案する。
論文 参考訳(メタデータ) (2021-10-16T01:00:15Z) - A Question-Centric Model for Visual Question Answering in Medical
Imaging [3.619444603816032]
そこで本稿では,画像の問合せを質問文で行う視覚質問解答手法を提案する。
種々の医用・自然画像データセットを用いた実験により, 提案手法は, 画像特徴と疑問特徴を新しい方法で融合させることで, 従来の手法と同等あるいは高い精度を達成できることが示されている。
論文 参考訳(メタデータ) (2020-03-02T10:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。