Fugu-MT 論文翻訳(概要): GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

論文の概要: GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

arxiv url: http://arxiv.org/abs/2411.14522v2
Date: Thu, 27 Mar 2025 15:24:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 14:27:25.767256
Title: GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI
Title（参考訳）: GMAI-VLとGMAI-VL-5.5M:広視野モデルと汎用医療AIに向けた総合的マルチモーダルデータセット
Authors: Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He,
Abstract要約: 我々は,3段階のトレーニング戦略を持つ一般的な医用視覚言語モデルであるGMAI-VLを開発した。 GMAI-VLは様々なマルチモーダル医療タスクにおいて最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 34.80116091045628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite significant advancements in general AI, its effectiveness in the medical domain is limited by the lack of specialized medical knowledge. To address this, we formulate GMAI-VL-5.5M, a multimodal medical dataset created by converting hundreds of specialized medical datasets with various annotations into high-quality image-text pairs. This dataset offers comprehensive task coverage, diverse modalities, and rich image-text data. Building upon this dataset, we develop GMAI-VL, a general medical vision-language model, with a three-stage training strategy that enhances the integration of visual and textual information. This approach significantly improves the model's ability to process multimodal data, supporting accurate diagnoses and clinical decision-making. Experiments show that GMAI-VL achieves state-of-the-art performance across various multimodal medical tasks, including visual question answering and medical image diagnosis.
Abstract（参考訳）: 一般AIの進歩にもかかわらず、医学領域におけるその有効性は専門的な医学知識の欠如によって制限される。 GMAI-VL-5.5Mは、数百の専門医用データセットをさまざまなアノテーションで高品質な画像テキストペアに変換することで作成されるマルチモーダル医療データセットである。このデータセットは、包括的なタスクカバレッジ、多様なモダリティ、リッチな画像テキストデータを提供する。このデータセットに基づいて、医用ビジョン言語モデルであるGMAI-VLを開発し、視覚情報とテキスト情報の統合を強化する3段階のトレーニング戦略を提案する。このアプローチは、モデルがマルチモーダルデータを処理する能力を大幅に改善し、正確な診断と臨床的意思決定をサポートする。 GMAI-VLは、視覚的質問応答や医用画像診断など、様々なマルチモーダル医療タスクにおいて最先端のパフォーマンスを達成することを示す実験である。

関連論文リスト

UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。 UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文参考訳（メタデータ） (2024-12-13T18:59:40Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。 MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文参考訳（メタデータ） (2024-09-29T12:23:10Z)
PathInsight: Instruction Tuning of Multimodal Datasets and Models for Intelligence Assisted Diagnosis in Histopathology [7.87900104748629]
6つの異なるタスクをカバーする約45,000のケースのデータセットを慎重にコンパイルしました。特にLLaVA, Qwen-VL, InternLMを微調整したマルチモーダル大規模モデルで, このデータセットを用いて命令ベースの性能を向上させる。
論文参考訳（メタデータ） (2024-08-13T17:05:06Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-28T15:01:23Z)
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。 PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-06-27T15:50:41Z)
AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis [1.9450973046619378]
マルチモーダル医療データの整合と融合のためのトランスフォーマーベースのフレームワークであるAlifuseを提案する。我々はAlifuseを用いてアルツハイマー病を分類し、5つのパブリックデータセット上で最先端のパフォーマンスを得る。
論文参考訳（メタデータ） (2024-01-02T07:28:21Z)
Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文参考訳（メタデータ） (2023-08-04T17:00:38Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。 M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文参考訳（メタデータ） (2023-04-03T20:19:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。