論文の概要: CBVLM: Training-free Explainable Concept-based Large Vision Language Models for Medical Image Classification
- arxiv url: http://arxiv.org/abs/2501.12266v1
- Date: Tue, 21 Jan 2025 16:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:39.102275
- Title: CBVLM: Training-free Explainable Concept-based Large Vision Language Models for Medical Image Classification
- Title(参考訳): CBVLM:医療画像分類のための訓練不要な説明可能な概念ベース大規模視覚言語モデル
- Authors: Cristiano Patrício, Isabel Rio-Torto, Jaime S. Cardoso, Luís F. Teixeira, João C. Neves,
- Abstract要約: 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、事前定義された人間の解釈可能な概念のセットに最終疾患予測を制約することで後者に対処する。
本稿では,これらの課題に対処する,シンプルで効果的な手法CBVLMを提案する。
予測された概念を最終診断し、説明可能性を確保し、LVLMの少数ショット機能を活用することにより、アノテーションのコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 8.470147509053819
- License:
- Abstract: The main challenges limiting the adoption of deep learning-based solutions in medical workflows are the availability of annotated data and the lack of interpretability of such systems. Concept Bottleneck Models (CBMs) tackle the latter by constraining the final disease prediction on a set of predefined and human-interpretable concepts. However, the increased interpretability achieved through these concept-based explanations implies a higher annotation burden. Moreover, if a new concept needs to be added, the whole system needs to be retrained. Inspired by the remarkable performance shown by Large Vision-Language Models (LVLMs) in few-shot settings, we propose a simple, yet effective, methodology, CBVLM, which tackles both of the aforementioned challenges. First, for each concept, we prompt the LVLM to answer if the concept is present in the input image. Then, we ask the LVLM to classify the image based on the previous concept predictions. Moreover, in both stages, we incorporate a retrieval module responsible for selecting the best examples for in-context learning. By grounding the final diagnosis on the predicted concepts, we ensure explainability, and by leveraging the few-shot capabilities of LVLMs, we drastically lower the annotation cost. We validate our approach with extensive experiments across four medical datasets and twelve LVLMs (both generic and medical) and show that CBVLM consistently outperforms CBMs and task-specific supervised methods without requiring any training and using just a few annotated examples. More information on our project page: https://cristianopatricio.github.io/CBVLM/.
- Abstract(参考訳): 医療ワークフローにおけるディープラーニングベースのソリューションの採用を制限する主な課題は、注釈付きデータの可用性と、そのようなシステムの解釈可能性の欠如である。
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、事前定義された人間の解釈可能な概念のセットに最終疾患予測を制約することで後者に対処する。
しかしながら、これらの概念に基づく説明によって達成される解釈可能性の向上は、アノテーションの負担を増大させることを意味する。
さらに、もし新しい概念を追加する必要があるなら、システム全体が再訓練される必要がある。
本研究は,LVLM(Large Vision-Language Models,LVLMs)が数ショットで示した顕著な性能に着想を得て,上記の課題に対処する,単純かつ効果的で方法論であるCBVLMを提案する。
まず,各概念について,その概念が入力画像に存在するかどうかをLVLMに問う。
そこで我々は,LVLMに対して,以前の概念予測に基づいて画像の分類を依頼する。
さらに,両段階において,テキスト内学習の最良の例を選択するための検索モジュールを組み込んだ。
予測された概念を最終診断し、説明可能性を確保し、LVLMの少数ショット機能を活用することにより、アノテーションのコストを大幅に削減する。
我々は,4つの医学データセットと12のLVLM(総合的および医療的)にまたがる広範な実験を行い,CBVLMがトレーニングを必要とせずにCBMやタスク固有の管理手法を一貫して上回っていることを示す。
プロジェクトページの詳細は、https://cristianopatricio.github.io/CBVLM/。
関連論文リスト
- A Two-Step Concept-Based Approach for Enhanced Interpretability and Trust in Skin Lesion Diagnosis [6.6635650150737815]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解できない概念のセットに対する最終疾患予測を制約することにより、固有の解釈可能性を提供する。
これらの課題に対処する新しい2段階の方法論を導入する。
CBMの2段階をシミュレートすることにより,臨床概念の自動予測にVLM(Pretrained Vision Language Model),疾患診断にLLM(Large Language Model)を用いる。
論文 参考訳(メタデータ) (2024-11-08T14:52:42Z) - DEAL: Disentangle and Localize Concept-level Explanations for VLMs [10.397502254316645]
大きな訓練済みのビジョンランゲージモデルでは、きめ細かい概念を特定できないかもしれない。
本研究では,人間のアノテーションを使わずに概念のDisEnt and Localize(アングル)概念レベルの説明を提案する。
実験結果から,提案手法はモデルの概念レベルの説明を,不整合性と局所性の観点から著しく改善することを示した。
論文 参考訳(メタデータ) (2024-07-19T15:39:19Z) - Improving Concept Alignment in Vision-Language Concept Bottleneck Models [9.228586820098723]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、クラス予測を行う前に、イメージを人間の解釈可能な概念にマッピングする。
近年のアプローチでは、大規模言語モデル(LLM)にテキスト概念の生成を促すことでCBM構築を自動化する。
LLMによって生成されたものよりも、人間の専門家によって定義された概念でCBMを構築することが望まれる。
論文 参考訳(メタデータ) (2024-05-03T03:02:00Z) - XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization [4.634780391920529]
本稿では,画像,学習可能なプロンプト,臨床概念に基づくプロンプトのセマンティクスを整合させることにより,医療知識を活用する新しい説明可能なプロンプト学習フレームワークを提案する。
我々のフレームワークは、大きな言語モデルから知識を引き出すことによって、価値ある概念アノテーションの欠如に対処する。
提案手法は,XAIにおける基礎モデルの有効性に光を当て,優れた診断性能,柔軟性,解釈可能性を実現する。
論文 参考訳(メタデータ) (2024-03-14T14:02:01Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Collaboration of Pre-trained Models Makes Better Few-shot Learner [49.89134194181042]
少ないショット分類では、限られた訓練画像からのみ、一般化された表現を学習するために、ディープニューラルネットワークが必要である。
最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。
我々は,様々な事前学習パラダイムから様々な事前知識を取り入れた事前学習モデルのコラボレーションであるCoMoを提案する。
論文 参考訳(メタデータ) (2022-09-25T16:23:12Z) - A Competence-aware Curriculum for Visual Concepts Learning via Question
Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。
視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。
CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2020-07-03T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。