論文の概要: MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation
- arxiv url: http://arxiv.org/abs/2409.19684v1
- Date: Sun, 29 Sep 2024 12:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 21:49:14.346525
- Title: MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation
- Title(参考訳): MedViLaM:医療データ理解と生成のための高度な一般化性と説明可能性を備えた多モード大言語モデル
- Authors: Lijian Xu, Hao Sun, Ziyu Ni, Hongsheng Li, Shaoting Zhang,
- Abstract要約: MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
- 参考スコア(独自算出の注目度): 40.9095393430871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medicine is inherently multimodal and multitask, with diverse data modalities spanning text, imaging. However, most models in medical field are unimodal single tasks and lack good generalizability and explainability. In this study, we introduce MedViLaM, a unified vision-language model towards a generalist model for medical data that can flexibly encode and interpret various forms of medical data, including clinical language and imaging, all using the same set of model weights. To facilitate the creation of such multi-task model, we have curated MultiMedBench, a comprehensive pretaining dataset and benchmark consisting of several distinct tasks, i.e., continuous question-answering, multi-label disease classification, disease localization, generation and summarization of radiology reports. MedViLaM demonstrates strong performance across all MultiMedBench tasks, frequently outpacing other generalist models by a significant margin. Additionally, we present instances of zero-shot generalization to new medical concepts and tasks, effective transfer learning across different tasks, and the emergence of zero-shot medical reasoning.
- Abstract(参考訳): 医学は本質的にマルチモーダルでマルチタスクであり、テキストや画像にまたがる多様なデータモダリティがある。
しかし、医療分野のほとんどのモデルは単調な単一タスクであり、優れた一般化性と説明性に欠ける。
本研究では,医療データに対する汎用モデルに向けた統一視覚言語モデルであるMedViLaMを紹介する。
このようなマルチタスクモデルの作成を容易にするため,我々は,連続質問応答,マルチラベル病分類,疾患の局所化,放射線診断レポートの生成と要約という,いくつかの異なるタスクからなる総合的な保持データセットとベンチマークであるMultiMedBenchをキュレートした。
MedViLaMは、すべてのMultiMedBenchタスクで強力なパフォーマンスを示し、他のジェネラリストモデルよりも大幅に優れています。
さらに,新たな医療概念やタスクへのゼロショット一般化,タスク間の効果的な伝達学習,ゼロショット医学推論の出現について紹介する。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - MultiMed: Massively Multimodal and Multitask Medical Understanding [41.160488390597905]
MultiMedは、幅広い医学的モダリティとタスクにわたる大規模学習の評価と有効化を目的として設計されたベンチマークである。
医療報告、病理学、ゲノム学、タンパク質データなど10の医療モダリティにまたがる256万のサンプルで構成されている。
我々はMultiMedを用いて、最先端のユニモーダル、マルチモーダル、マルチタスクモデルのベンチマークを行う。
論文 参考訳(メタデータ) (2024-08-22T18:41:36Z) - Towards Holistic Disease Risk Prediction using Small Language Models [2.137491464843808]
様々な病気のリスクを同時に予測することを目的とした,小言語モデルと複数のデータソースを接続するフレームワークを提案する。
本実験では,12種類のタスクをマルチタスク学習装置に組み込んだ。
論文 参考訳(メタデータ) (2024-08-13T15:01:33Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。
M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。
専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。