論文の概要: An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2501.15579v2
- Date: Sat, 26 Apr 2025 08:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.100138
- Title: An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training
- Title(参考訳): 大規模概念強化ビジョンランゲージ事前トレーニングによる説明可能なバイオメディカルファンデーションモデル
- Authors: Yuxiang Nie, Sunan He, Yequan Bie, Yihui Wang, Zhixuan Chen, Shu Yang, Zhiyuan Cai, Hongmei Wang, Xi Wang, Luyang Luo, Mingxiang Wu, Xian Wu, Ronald Cheong Kin Chan, Yuk Ming Lau, Yefeng Zheng, Pranav Rajpurkar, Hao Chen,
- Abstract要約: ConceptCLIPは、最先端の診断精度を達成する最初の説明可能なバイオメディカル基礎モデルである。
本研究では,グローバルな画像テキスト表現と細粒度領域概念関連を同時に学習する,新しいデュアルアライメントアプローチにより,概念CLIPを開発する。
- 参考スコア(独自算出の注目度): 40.16314726875265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The clinical adoption of artificial intelligence (AI) in medical imaging requires models that are both diagnostically accurate and interpretable to clinicians. While current multimodal biomedical foundation models prioritize performance, their black-box nature hinders explaining the decision-making process in clinically meaningful concepts. Here, we present ConceptCLIP, the first explainable biomedical foundation model that achieves state-of-the-art diagnostic accuracy while delivering human-interpretable explanations across diverse imaging modalities. We curate MedConcept-23M, the largest pre-training dataset comprising 23 million image-text-concept triplets across diverse medical modalities, where clinical concepts are derived from the Unified Medical Language System. Leveraging this dataset, we develop ConceptCLIP through a novel dual-alignment approach that simultaneously learns global image-text representations and fine-grained region-concept associations for precise and interpretable medical image analysis. We curate the most extensive evaluation benchmark for multimodal biomedical foundation models, covering 52 clinical tasks spanning 10 imaging modalities. Extensive experiments demonstrate that ConceptCLIP outperforms existing state-of-the-art multimodal biomedical foundation models. Importantly, ConceptCLIP demonstrates superior diagnostic performance while providing human-understandable explanations validated by clinical experts. As the first precise and interpretable biomedical foundation model, ConceptCLIP represents a critical milestone toward the widespread clinical adoption of AI, thereby advancing trustworthy AI in medicine.
- Abstract(参考訳): 医療画像における人工知能(AI)の臨床応用には、診断的に正確で、臨床医に解釈可能なモデルが必要である。
現在のマルチモーダルバイオメディカルファンデーションモデルはパフォーマンスを優先するが、ブラックボックスの性質は臨床的に意味のある概念で意思決定プロセスを説明するのを妨げる。
本稿では,様々な画像モダリティにまたがって人間の解釈可能な説明を提供しながら,最先端の診断精度を実現する,最初の説明可能なバイオメディカル基礎モデルであるConceptCLIPを提案する。
We curate MedConcept-23M, the largest pre-training dataset consisting image-text-concept triplet across various medical modalities, where clinical concept is derived from the Unified Medical Language System。
このデータセットを活用することで、医用画像の正確かつ解釈可能な分析のために、グローバルな画像テキスト表現ときめ細かな領域概念関連を同時に学習する新しいデュアルアライメントアプローチにより、ConceptCLIPを開発する。
本研究は,10種類の画像モダリティにまたがる52の臨床的タスクを対象とし,マルチモーダルバイオメディカル基礎モデルの最も広範な評価ベンチマークをキュレートする。
広範な実験により、ConceptCLIPは既存の最先端のマルチモーダルバイオメディカル基盤モデルより優れていることが示されている。
重要なことは、ConceptCLIPは、臨床の専門家によって検証された人間の理解可能な説明を提供しながら、優れた診断性能を示すことである。
最初の正確かつ解釈可能なバイオメディカルファンデーションモデルとして、ConceptCLIPは、AIの広範な臨床導入に向けた重要なマイルストーンであり、医療における信頼できるAIを推進している。
関連論文リスト
- SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging [1.220481237642298]
本稿では,マルチモーダル医療画像アシスタントSilVar-Medを紹介する。
提案する推論データセットを用いて,医学的異常予測の背景にある推論の解釈に焦点をあてる。
この研究は、より透明でインタラクティブで、臨床的に実行可能な診断支援システムを育むことで、医療AIの分野を前進させると信じています。
論文 参考訳(メタデータ) (2025-04-14T18:51:37Z) - iMedImage Technical Report [5.0953390013898705]
染色体核型解析は遺伝性疾患の診断に不可欠であるが, 構造異常の検出は依然として困難である。
一般医用画像認識のためのエンド・ツー・エンド・エンド・モデルiMedImageを開発した。
論文 参考訳(メタデータ) (2025-03-27T03:25:28Z) - Brain-Adapter: Enhancing Neurological Disorder Analysis with Adapter-Tuning Multimodal Large Language Models [30.044545011553172]
本稿では、新たな知識を学習し、元の学習済み知識に組み込むために、余分なボトルネック層を組み込んだ新しいアプローチであるBrain-Adapterを提案する。
実験では,高い計算コストを伴わずに診断精度を大幅に向上させるため,マルチモーダルデータの統合によるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2025-01-27T18:20:49Z) - Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
人工知能(AI)に基づく合成データ生成は、臨床医学の届け方を変えることができる。
本研究は,無線カプセル内視鏡(WCE)画像を用いた炎症性腸疾患(IBD)の診断における概念実証による医療用SDGの臨床評価に焦点を当てた。
その結果、TIDE-IIは、最先端の生成モデルと比較して品質が向上し、臨床的に可塑性で、非常に現実的なWCE画像を生成することがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - Integrating Clinical Knowledge into Concept Bottleneck Models [18.26357481872999]
概念ボトルネックモデル(CBM)は最終出力を予測する前に人間の解釈可能な概念を予測する。
臨床知識の統合によるCBMの洗練, 臨床医の意思決定プロセスとの整合性の向上を提案する。
医療画像の2つのデータセット(白血球と皮膚画像)にアプローチを検証した。
論文 参考訳(メタデータ) (2024-07-09T07:03:42Z) - DS@BioMed at ImageCLEFmedical Caption 2024: Enhanced Attention Mechanisms in Medical Caption Generation through Concept Detection Integration [0.0]
本研究では,概念検出を注意機構に組み込むことにより,医用画像キャプション生成へのアプローチを改良した。
キャプション予測タスクでは,概念統合と後処理技術によって強化されたBEiT+BioBartモデルで,検証セットで0.60589,プライベートテストセットで0.5794,9位となった。
論文 参考訳(メタデータ) (2024-06-01T10:14:33Z) - MICA: Towards Explainable Skin Lesion Diagnosis via Multi-Level
Image-Concept Alignment [4.861768967055006]
本稿では, 医療画像と臨床関連概念を多層的に意味的に整合させるマルチモーダル説明型疾患診断フレームワークを提案する。
提案手法は, モデル解釈可能性を維持しながら, 概念検出と疾患診断に高い性能とラベル効率を実現する。
論文 参考訳(メタデータ) (2024-01-16T17:45:01Z) - CLIP in Medical Imaging: A Comprehensive Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。
CLIPの使用は、最近医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。