論文の概要: MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning
- arxiv url: http://arxiv.org/abs/2404.15127v1
- Date: Tue, 23 Apr 2024 15:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:32:19.096051
- Title: MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning
- Title(参考訳): MedDr:大規模医用ビジョンランゲージ学習のための診断ガイド付きブートストラップ
- Authors: Sunan He, Yuxiang Nie, Zhixuan Chen, Zhiyuan Cai, Hongmei Wang, Shu Yang, Hao Chen,
- Abstract要約: 医学における広範かつ高品質の画像テキストデータの欠如は、大規模医療ビジョン言語モデルの開発を著しく妨げている。
本稿では、画像情報とラベル情報を利用して視覚言語データセットを構築する、診断誘導型ブートストラッピング戦略を提案する。
- 参考スコア(独自算出の注目度): 9.913879680322042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large-scale vision-language models has showcased remarkable capabilities across various tasks. However, the lack of extensive and high-quality image-text data in medicine has greatly hindered the development of large-scale medical vision-language models. In this work, we present a diagnosis-guided bootstrapping strategy that exploits both image and label information to construct vision-language datasets. Based on the constructed dataset, we developed MedDr, a generalist foundation model for healthcare capable of handling diverse medical data modalities, including radiology, pathology, dermatology, retinography, and endoscopy. Moreover, during inference, we propose a simple but effective retrieval-augmented medical diagnosis strategy, which enhances the model's generalization ability. Extensive experiments on visual question answering, medical report generation, and medical image diagnosis demonstrate the superiority of our method.
- Abstract(参考訳): 大規模視覚言語モデルの急速な進歩は、様々なタスクにおいて顕著な能力を示した。
しかし、医学における画像テキストデータの広範かつ高品質の欠如は、大規模医療ビジョン言語モデルの開発を著しく妨げている。
本研究では,画像情報とラベル情報を利用して視覚言語データセットを構築する,診断誘導型ブートストラッピング戦略を提案する。
構築したデータセットに基づいて,放射線学,病理学,皮膚科,網膜撮影,内視鏡などの多様な医療データモダリティを扱える医療の一般基盤モデルであるMedDrを開発した。
さらに,推測において,モデルの一般化能力を高める,単純かつ効果的な検索強化型医療診断戦略を提案する。
視覚的質問応答, 医療報告生成, 医用画像診断に関する広範囲な実験は, 本手法の優位性を示している。
関連論文リスト
- Large-scale Long-tailed Disease Diagnosis on Radiology Images [59.37561810438641]
本研究では,放射線画像における大規模大語彙疾患分類の問題点について検討する。
i)データセット構築では、39,026ケース(192,675スキャン)を含む930のユニークなICD-10-CMコードとリンクした5568の障害を含む、学術的にアクセス可能な大規模診断データセットを構築します。
さらに,本研究の最終モデルは事前学習モデルとして機能し,様々な外部データセットの診断に役立てることができる。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - Improving Medical Report Generation with Adapter Tuning and Knowledge
Enhancement in Vision-Language Foundation Models [26.146579369491718]
この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。
ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
論文 参考訳(メタデータ) (2023-12-07T01:01:45Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic
Space [41.10756702551621]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Unlocking the Potential of Medical Imaging with ChatGPT's Intelligent
Diagnostics [2.8484009470171943]
本論は、医療提供者や患者が健康状態の診断、治療、管理に関する意思決定を行うのを支援するための意思決定支援システムを設計することを目的とする。
提案アーキテクチャは,1)データ収集とラベル付け,2)モデルトレーニング,3)診断レポート生成の3段階を含む。
提案システムには,意思決定の強化,コスト削減,医療提供者の能力向上が期待できる。
論文 参考訳(メタデータ) (2023-05-12T12:52:14Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Explainable Deep Learning Methods in Medical Image Classification: A
Survey [0.0]
最先端のディープラーニングモデルは、異なるタイプの医療データの分類において、人間レベルの精度を達成した。
これらのモデルは、主に解釈可能性の欠如のために、臨床ではほとんど採用されていない。
ディープラーニングモデルのブラックボックス性は、これらのモデルの意思決定プロセスを説明するための戦略を考案する必要性を高めている。
論文 参考訳(メタデータ) (2022-05-10T09:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。