論文の概要: GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI
- arxiv url: http://arxiv.org/abs/2411.14522v1
- Date: Thu, 21 Nov 2024 18:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:05.503544
- Title: GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI
- Title(参考訳): GMAI-VLとGMAI-VL-5.5M:広視野モデルと汎用医療AIに向けた総合的マルチモーダルデータセット
- Authors: Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He,
- Abstract要約: 総合的なマルチモーダル医療データセットであるGMAI-VL-5.5Mを提案する。
このデータセットは、包括的なタスクカバレッジ、多様なモダリティ、高品質の画像テキストデータを備えている。
本稿では,段階的に3段階のトレーニング戦略を持つ一般医用視覚言語モデルであるGMAI-VLを提案する。
- 参考スコア(独自算出の注目度): 34.80116091045628
- License:
- Abstract: Despite significant advancements in general artificial intelligence, such as GPT-4, their effectiveness in the medical domain (general medical AI, GMAI) remains constrained due to the absence of specialized medical knowledge. To address this challenge, we present GMAI-VL-5.5M, a comprehensive multimodal medical dataset created by converting hundreds of specialized medical datasets into meticulously constructed image-text pairs. This dataset features comprehensive task coverage, diverse modalities, and high-quality image-text data. Building upon this multimodal dataset, we propose GMAI-VL, a general medical vision-language model with a progressively three-stage training strategy. This approach significantly enhances the model's ability by integrating visual and textual information, thereby improving its ability to process multimodal data and support accurate diagnosis and clinical decision-making. Experimental evaluations demonstrate that GMAI-VL achieves state-of-the-art results across a wide range of multimodal medical tasks, such as visual question answering and medical image diagnosis. Our contributions include the development of the GMAI-VL-5.5M dataset, the introduction of the GMAI-VL model, and the establishment of new benchmarks in multiple medical domains. Code and dataset will be released at https://github.com/uni-medical/GMAI-VL.
- Abstract(参考訳): GPT-4のような汎用人工知能の進歩にもかかわらず、医学領域(一般医療AI、GMAI)におけるその有効性は、専門的な医学知識が欠如しているために制限されている。
この課題に対処するため、GMAI-VL-5.5Mは、数百の専門的な医療データセットを慎重に構築された画像テキストペアに変換することで作成される総合的なマルチモーダル医療データセットである。
このデータセットは、包括的なタスクカバレッジ、多様なモダリティ、高品質の画像テキストデータを備えている。
このマルチモーダルデータセットに基づいて、段階的に3段階のトレーニング戦略を持つ一般的な医療ビジョン言語モデルであるGMAI-VLを提案する。
このアプローチは、視覚情報とテキスト情報を統合することでモデルの能力を大幅に向上させ、マルチモーダルデータの処理能力を改善し、正確な診断と臨床的意思決定を支援する。
GMAI-VLは, 視覚的質問応答や画像診断など, 幅広いマルチモーダル医療タスクにおいて, 最先端の成果が得られている。
我々の貢献は、GMAI-VL-5.5Mデータセットの開発、GMAI-VLモデルの導入、および複数の医療領域における新しいベンチマークの確立である。
コードとデータセットはhttps://github.com/uni-medical/GMAI-VLで公開される。
関連論文リスト
- UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - PathInsight: Instruction Tuning of Multimodal Datasets and Models for Intelligence Assisted Diagnosis in Histopathology [7.87900104748629]
6つの異なるタスクをカバーする約45,000のケースのデータセットを慎重にコンパイルしました。
特にLLaVA, Qwen-VL, InternLMを微調整したマルチモーダル大規模モデルで, このデータセットを用いて命令ベースの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-13T17:05:06Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-27T15:50:41Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。
M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。
専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。