論文の概要: Doctor Sun: A Bilingual Multimodal Large Language Model for Biomedical AI
- arxiv url: http://arxiv.org/abs/2508.08270v1
- Date: Wed, 30 Jul 2025 13:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.153531
- Title: Doctor Sun: A Bilingual Multimodal Large Language Model for Biomedical AI
- Title(参考訳): バイオメディカルAIのためのバイリンガルマルチモーダル大言語モデルDr. Sun
- Authors: Dong Xue, Ziyao Shao, Zhaoyang Duan, Fangzhou Liu, Bing Li, Zhongheng Zhang,
- Abstract要約: 医学に特化した多モード生成モデルであるDr. Sunを紹介する。
ドクター・サンは、テキストや画像などの多様な生体データモダリティをエンコードし、統合し、解釈する。
また、幅広いバイリンガル医療マルチモーダルデータセットであるSunMed-VLをリリースしています。
- 参考スコア(独自算出の注目度): 3.8305353826216417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have demonstrated significant potential in providing innovative solutions for various biomedical tasks, including pathology analysis, radiology report generation, and biomedical assistance. However, the existing multimodal biomedical AI is typically based on foundation LLMs, thus hindering the understanding of intricate medical concepts with limited medical training data. Moreover, recent LLaVA-induced medical LMMs struggle to effectively capture the intricate relationship between the texts and the images. Therefore, we introduce Doctor Sun, a large multimodal generative model specialized in medicine, developed to encode, integrate, and interpret diverse biomedical data modalities such as text and images. In particular, Doctor Sun integrates a pre-trained vision encoder with a medical LLM and conducts two-stage training on various medical datasets, focusing on feature alignment and instruction tuning. Moreover, we release SunMed-VL, a wide-range bilingual medical multimodal dataset, along with all associated models, code, and resources, to freely support the advancement of biomedical multimodal research.
- Abstract(参考訳): 大型マルチモーダルモデル (LMM) は, 病理解析, 放射線学報告生成, バイオメディカル・アシストなど, 様々なバイオメディカル・タスクに革新的なソリューションを提供する上で, 重要な可能性を示している。
しかし、既存のマルチモーダルバイオメディカルAIは典型的には基礎的なLCMに基づいており、医療訓練データに制限のある複雑な医療概念の理解を妨げる。
さらに、最近のLLaVAによる医療用LMMは、テキストと画像の複雑な関係を効果的に捉えるのに苦労している。
そこで本研究では,医学に特化した大規模マルチモーダル生成モデルであるDr. Sunを紹介し,テキストや画像などの多様なバイオメディカルデータモダリティをエンコードし,統合し,解釈するために開発された。
特にドクター・サンは、訓練済みの視覚エンコーダを医療用LLMと統合し、様々な医療データセットで2段階のトレーニングを行い、特徴のアライメントとインストラクションチューニングに重点を置いている。
さらに、バイオメディカルマルチモーダル研究の進展を自由に支援するために、幅広いバイリンガル医療マルチモーダルデータセットであるSunMed-VLを、関連するすべてのモデル、コード、リソースとともにリリースする。
関連論文リスト
- MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - MultiMed: Massively Multimodal and Multitask Medical Understanding [41.160488390597905]
MultiMedは、幅広い医学的モダリティとタスクにわたる大規模学習の評価と有効化を目的として設計されたベンチマークである。
医療報告、病理学、ゲノム学、タンパク質データなど10の医療モダリティにまたがる256万のサンプルで構成されている。
我々はMultiMedを用いて、最先端のユニモーダル、マルチモーダル、マルチタスクモデルのベンチマークを行う。
論文 参考訳(メタデータ) (2024-08-22T18:41:36Z) - A Refer-and-Ground Multimodal Large Language Model for Biomedicine [10.519866875035003]
Med-GRIT-270kデータセットは、バイオメディカルドメインに初めて専用のデータセットであり、参照と地上の会話を統合している。
本稿では,このデータセットとマルチタスク・インストラクション・ラーニングを用いて,バイオメディシンのためのRefer-and-Ground Multimodal Large Language Model(BiRD)を提案する。
論文 参考訳(メタデータ) (2024-06-26T07:56:17Z) - MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided
Diffusion with Visual Invariant [15.30998544228763]
MedM2Gは、テキスト・ツー・イメージ、画像・トゥ・テキスト、医用モダリティの統一的な生成タスクを統一する医療生成モデルである。
10のデータセットにまたがって5つの医療生成タスクを実行する。
論文 参考訳(メタデータ) (2024-03-07T07:39:00Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。