論文の概要: HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
- arxiv url: http://arxiv.org/abs/2406.19280v4
- Date: Mon, 30 Sep 2024 06:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:06.230946
- Title: HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
- Title(参考訳): HuatuoGPT-Vision - マルチモーダルLCMへの医用視覚知識注入を目指して
- Authors: Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang,
- Abstract要約: 私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 29.956053068653734
- License:
- Abstract: The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.
- Abstract(参考訳): GPT-4Vのようなマルチモーダル大規模言語モデル(MLLM)の急速な開発は、大きな進歩をもたらした。
しかし、これらのモデルは、データプライバシの懸念と高いアノテーションコストから生じる、医療ビジョンテキストデータの量と品質の制限により、医療マルチモーダル能力の課題に直面している。
先駆的なアプローチでは、PubMedの大規模で識別されていない医療画像テキストペアを使用してこれらの制限に対処するが、固有のデータノイズのために依然として不足している。
そこで我々は,医療用VQAサンプル13万件のPubMedVisionデータセットを作成するために,医療用画像テキストペアをPubMedから改良し,MLLM(GPT-4V)を「公開されていない」能力で使用した。
検証の結果, (1) PubMedVision は現在のMLLMの医療マルチモーダル能力を大幅に向上させ,MMMU Health & Medicine トラックを含むベンチマークの大幅な改善, (2) 医療専門家による手作業によるチェック, 実験結果による他のデータ構築手法と比較して, データセットの優れたデータ品質を評価することができることがわかった。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionをトレーニングし、オープンソースMLLMの医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
関連論文リスト
- Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding [9.144030136201476]
マルチモーダル大言語モデル(MLLM)は、LLMの優れたテキスト理解能力を継承し、これらの機能をマルチモーダルシナリオに拡張する。
これらのモデルは、マルチモーダルタスクの一般領域において優れた結果をもたらす。
しかし,医療分野では,医療用MLLMの開発に多大なトレーニングコストと広範な医療データを必要とすることが課題となっている。
論文 参考訳(メタデータ) (2024-10-31T11:07:26Z) - LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound [7.941670191244354]
パラメータ効率の調整による中国の医用視覚会話のための微粒化適応型VLMアーキテクチャを提案する。
具体的には、微妙な医用視覚意味論の強化を実現するために、微細な視覚エンコーダを備えた融合モジュールを考案する。
実施にあたっては,病院から得られた大規模マルチモーダル中国語超音波データセットを利用する。
論文 参考訳(メタデータ) (2024-10-19T11:38:31Z) - MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models [20.781551849965357]
医用ビジュアル質問回答(VQA)ベンチマークデータセットであるMedConfusionを紹介した。
現状のモデルは、画像のペアによって容易に混同され、それ以外は視覚的に異なっており、医療専門家にとってはっきりと区別されている。
また、医療における信頼性が高く信頼性の高いMLLMの新しい世代の設計に役立つモデル失敗の共通パターンを抽出する。
論文 参考訳(メタデータ) (2024-09-23T18:59:37Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。