論文の概要: Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2506.07044v2
- Date: Tue, 10 Jun 2025 07:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.295528
- Title: Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
- Title(参考訳): Lingshu: 統一マルチモーダル医療理解と推論のためのジェネリスト基礎モデル
- Authors: LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong,
- Abstract要約: 医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
- 参考スコア(独自算出の注目度): 57.873833577058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in understanding common visual elements, largely due to their large-scale datasets and advanced training strategies. However, their effectiveness in medical applications remains limited due to the inherent discrepancies between data and tasks in medical scenarios and those in the general domain. Concretely, existing medical MLLMs face the following critical limitations: (1) limited coverage of medical knowledge beyond imaging, (2) heightened susceptibility to hallucinations due to suboptimal data curation processes, (3) lack of reasoning capabilities tailored for complex medical scenarios. To address these challenges, we first propose a comprehensive data curation procedure that (1) efficiently acquires rich medical knowledge data not only from medical imaging but also from extensive medical texts and general-domain data; and (2) synthesizes accurate medical captions, visual question answering (VQA), and reasoning samples. As a result, we build a multimodal dataset enriched with extensive medical knowledge. Building on the curated data, we introduce our medical-specialized MLLM: Lingshu. Lingshu undergoes multi-stage training to embed medical expertise and enhance its task-solving capabilities progressively. Besides, we preliminarily explore the potential of applying reinforcement learning with verifiable rewards paradigm to enhance Lingshu's medical reasoning ability. Additionally, we develop MedEvalKit, a unified evaluation framework that consolidates leading multimodal and textual medical benchmarks for standardized, fair, and efficient model assessment. We evaluate the performance of Lingshu on three fundamental medical tasks, multimodal QA, text-based QA, and medical report generation. The results show that Lingshu consistently outperforms the existing open-source multimodal models on most tasks ...
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、大規模なデータセットと高度なトレーニング戦略によって、一般的な視覚要素を理解するための印象的な能力を示している。
しかし、医療現場におけるデータとタスクと一般領域におけるタスクの相違により、医療分野での有効性は依然として限られている。
具体的には、既存の医療MLLMは、(1)画像以外の医療知識の限られた範囲、(2)最適なデータキュレーションプロセスによる幻覚への感受性の向上、(3)複雑な医療シナリオに適した推論能力の欠如。
これらの課題に対処するために,まず,(1)医用画像だけでなく,広範な医用テキストや一般ドメインデータから豊富な医用知識データを効率よく取得し,(2)正確な医用キャプション,視覚的質問応答(VQA),推論サンプルを合成する総合的データキュレーション手法を提案する。
その結果,医療知識の豊富なマルチモーダルデータセットを構築した。
キュレートされたデータに基づいて,医療専門のMLLM: Lingshuを紹介した。
Lingshuは、医療専門知識を組み込むためのマルチステージトレーニングを実施し、タスク解決能力を徐々に強化している。
また,Lingshuの医学的推論能力を高めるために,検証可能な報酬パラダイムによる強化学習の適用の可能性についても検討した。
さらに,MedEvalKitを開発した。MedEvalKitは,標準化された,公正かつ効率的なモデル評価のための,先行するマルチモーダルおよびテキストの医療ベンチマークを統合する統合評価フレームワークである。
3つの基本的な医療課題,マルチモーダルQA,テキストベースQA,医療報告生成におけるLingshuの性能評価を行った。
その結果、Lingshuは既存のオープンソースマルチモーダルモデルをほとんどのタスクで一貫して上回っていることがわかった。
関連論文リスト
- Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation [33.22110638954145]
医療用大規模言語モデル(MLLM)の包括的フレームワークであるInfi-Medを提案する。
Infi-Medは,(1)品質の高い教師付き微調整データセットを最小限のサンプル要求でキュレート・構築する資源効率の高いアプローチ,(2)クロスモーダル統合と臨床タスク理解のためのマルチモーダル推論能力の向上,(3)医療モダリティとタスクタイプをまたいだモデルパフォーマンスを評価する体系的評価システム,の3点を紹介した。
本実験は,Infi-Medが臨床シナリオへの迅速な適応性を維持しつつ,一般医学的推論におけるSOTA(State-of-the-art)のパフォーマンスを達成できることを実証するものである。
論文 参考訳(メタデータ) (2025-05-29T10:31:57Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。