論文の概要: MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning
- arxiv url: http://arxiv.org/abs/2404.15127v1
- Date: Tue, 23 Apr 2024 15:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:32:19.096051
- Title: MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning
- Title(参考訳): MedDr:大規模医用ビジョンランゲージ学習のための診断ガイド付きブートストラップ
- Authors: Sunan He, Yuxiang Nie, Zhixuan Chen, Zhiyuan Cai, Hongmei Wang, Shu Yang, Hao Chen,
- Abstract要約: 医学における広範かつ高品質の画像テキストデータの欠如は、大規模医療ビジョン言語モデルの開発を著しく妨げている。
本稿では、画像情報とラベル情報を利用して視覚言語データセットを構築する、診断誘導型ブートストラッピング戦略を提案する。
- 参考スコア(独自算出の注目度): 9.913879680322042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large-scale vision-language models has showcased remarkable capabilities across various tasks. However, the lack of extensive and high-quality image-text data in medicine has greatly hindered the development of large-scale medical vision-language models. In this work, we present a diagnosis-guided bootstrapping strategy that exploits both image and label information to construct vision-language datasets. Based on the constructed dataset, we developed MedDr, a generalist foundation model for healthcare capable of handling diverse medical data modalities, including radiology, pathology, dermatology, retinography, and endoscopy. Moreover, during inference, we propose a simple but effective retrieval-augmented medical diagnosis strategy, which enhances the model's generalization ability. Extensive experiments on visual question answering, medical report generation, and medical image diagnosis demonstrate the superiority of our method.
- Abstract(参考訳): 大規模視覚言語モデルの急速な進歩は、様々なタスクにおいて顕著な能力を示した。
しかし、医学における画像テキストデータの広範かつ高品質の欠如は、大規模医療ビジョン言語モデルの開発を著しく妨げている。
本研究では,画像情報とラベル情報を利用して視覚言語データセットを構築する,診断誘導型ブートストラッピング戦略を提案する。
構築したデータセットに基づいて,放射線学,病理学,皮膚科,網膜撮影,内視鏡などの多様な医療データモダリティを扱える医療の一般基盤モデルであるMedDrを開発した。
さらに,推測において,モデルの一般化能力を高める,単純かつ効果的な検索強化型医療診断戦略を提案する。
視覚的質問応答, 医療報告生成, 医用画像診断に関する広範囲な実験は, 本手法の優位性を示している。
関連論文リスト
- KA$^2$ER: Knowledge Adaptive Amalgamation of ExpeRts for Medical Images Segmentation [5.807887214293438]
本稿では,多元的基礎モデルを学習し,複数のエキスパートモデルの協調的な目標に対処することを目的としたアダプティブ・アマルガメーション・ナレッジ・フレームワークを提案する。
特に、まず、各タスクに対してnnUNetベースのエキスパートモデルをトレーニングし、トレーニング済みのSwinUNTERをターゲット基盤モデルとして再利用する。
隠蔽層内の階層的アテンション機構は、すべての専門家の隠蔽層の特徴知識にターゲットモデルの適応的なマージを実現するように設計されている。
論文 参考訳(メタデータ) (2024-10-28T14:49:17Z) - LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。
我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。
LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文 参考訳(メタデータ) (2024-09-29T03:56:21Z) - Do Vision Foundation Models Enhance Domain Generalization in Medical Image Segmentation? [10.20366295974822]
本稿では,2つの最先端デコーダヘッドであるHSAMとHQSAMの要素を統合し,セグメンテーション性能を向上させる新しいデコーダヘッドアーキテクチャであるHQHSAMを紹介する。
種々の解剖学やモダリティを含む複数のデータセットに対する実験により,FM,特にHQHSAMデコードヘッドを用いて,医用画像分割のための領域一般化が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-12T11:41:35Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert
knowledge in text supervision [17.583536041845402]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから37個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文 参考訳(メタデータ) (2023-08-15T17:39:52Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。