論文の概要: ConceptCLIP: Towards Trustworthy Medical AI via Concept-Enhanced Contrastive Langauge-Image Pre-training
- arxiv url: http://arxiv.org/abs/2501.15579v1
- Date: Sun, 26 Jan 2025 16:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:32.511711
- Title: ConceptCLIP: Towards Trustworthy Medical AI via Concept-Enhanced Contrastive Langauge-Image Pre-training
- Title(参考訳): ConceptCLIP:概念強化型コントラスト型Langauge画像事前トレーニングによる信頼できる医療AIの実現
- Authors: Yuxiang Nie, Sunan He, Yequan Bie, Yihui Wang, Zhixuan Chen, Shu Yang, Hao Chen,
- Abstract要約: ConceptCLIPは、概念強化されたコントラスト言語イメージ事前トレーニングを利用する医療AIモデルである。
事前学習には、画像テキストアライメント学習(IT-Align)とパッチコンセプトアライメント学習(PC-Align)の2つの主要要素が含まれる。
- 参考スコア(独自算出の注目度): 11.035696081174263
- License:
- Abstract: Trustworthiness is essential for the precise and interpretable application of artificial intelligence (AI) in medical imaging. Traditionally, precision and interpretability have been addressed as separate tasks, namely medical image analysis and explainable AI, each developing its own models independently. In this study, for the first time, we investigate the development of a unified medical vision-language pre-training model that can achieve both accurate analysis and interpretable understanding of medical images across various modalities. To build the model, we construct MedConcept-23M, a large-scale dataset comprising 23 million medical image-text pairs extracted from 6.2 million scientific articles, enriched with concepts from the Unified Medical Language System (UMLS). Based on MedConcept-23M, we introduce ConceptCLIP, a medical AI model utilizing concept-enhanced contrastive language-image pre-training. The pre-training of ConceptCLIP involves two primary components: image-text alignment learning (IT-Align) and patch-concept alignment learning (PC-Align). This dual alignment strategy enhances the model's capability to associate specific image regions with relevant concepts, thereby improving both the precision of analysis and the interpretability of the AI system. We conducted extensive experiments on 5 diverse types of medical image analysis tasks, spanning 51 subtasks across 10 image modalities, with the broadest range of downstream tasks. The results demonstrate the effectiveness of the proposed vision-language pre-training model. Further explainability analysis across 6 modalities reveals that ConceptCLIP achieves superior performance, underscoring its robust ability to advance explainable AI in medical imaging. These findings highlight ConceptCLIP's capability in promoting trustworthy AI in the field of medicine.
- Abstract(参考訳): 医療画像における人工知能(AI)の正確かつ解釈可能な応用には、信頼性が不可欠である。
伝統的に、精度と解釈性は、医療画像分析と説明可能なAIという、それぞれ独立して独自のモデルを開発する、独立したタスクとして扱われてきた。
本研究では, 医用画像の正確な解析と解釈可能な理解を両立できる医用ビジョン言語事前学習モデルの開発を, はじめに検討した。
このモデルを構築するために,Unified Medical Language System (UMLS) の概念に富んだ620万の科学論文から抽出された2300万の医用画像テキストペアからなる大規模データセット MedConcept-23M を構築した。
MedConcept-23Mに基づいて,概念強化コントラスト言語画像事前学習を利用した医療用AIモデルであるConceptCLIPを紹介する。
ConceptCLIPの事前学習には、イメージテキストアライメント学習(IT-Align)とパッチコンセプトアライメント学習(PC-Align)の2つの主要コンポーネントが含まれる。
この二重アライメント戦略により、特定の画像領域と関連する概念を関連付ける能力が強化され、分析の精度とAIシステムの解釈可能性の両方が改善される。
我々は,5種類の医用画像解析タスクについて広範囲にわたる実験を行い,51のサブタスクを10の画像モダリティにまたがって実施した。
その結果,視覚言語事前学習モデルの有効性が示された。
6つのモードにわたる説明可能性分析により、ConceptCLIPは優れたパフォーマンスを達成し、医用画像における説明可能なAIを前進させる堅牢な能力を強調している。
これらの知見は、医療分野で信頼できるAIを促進するConceptCLIPの能力を浮き彫りにしている。
関連論文リスト
- DS@BioMed at ImageCLEFmedical Caption 2024: Enhanced Attention Mechanisms in Medical Caption Generation through Concept Detection Integration [0.0]
本研究では,概念検出を注意機構に組み込むことにより,医用画像キャプション生成へのアプローチを改良した。
キャプション予測タスクでは,概念統合と後処理技術によって強化されたBEiT+BioBartモデルで,検証セットで0.60589,プライベートテストセットで0.5794,9位となった。
論文 参考訳(メタデータ) (2024-06-01T10:14:33Z) - MICA: Towards Explainable Skin Lesion Diagnosis via Multi-Level
Image-Concept Alignment [4.861768967055006]
本稿では, 医療画像と臨床関連概念を多層的に意味的に整合させるマルチモーダル説明型疾患診断フレームワークを提案する。
提案手法は, モデル解釈可能性を維持しながら, 概念検出と疾患診断に高い性能とラベル効率を実現する。
論文 参考訳(メタデータ) (2024-01-16T17:45:01Z) - CLIP in Medical Imaging: A Comprehensive Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。
CLIPの使用は、最近医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。