論文の概要: Hulu-Med: A Transparent Generalist Model towards Holistic Medical Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2510.08668v2
- Date: Wed, 05 Nov 2025 15:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 16:07:39.990346
- Title: Hulu-Med: A Transparent Generalist Model towards Holistic Medical Vision-Language Understanding
- Title(参考訳): Hulu-Med:全体像理解のための透明なジェネリストモデル
- Authors: Songtao Jiang, Yuan Wang, Sibo Song, Tianxiang Hu, Chenyi Zhou, Bin Pu, Yan Zhang, Zhibo Yang, Yang Feng, Joey Tianyi Zhou, Jin Hao, Zijian Chen, Ruijia Wu, Tao Tang, Junhui Lv, Hongxia Xu, Hongwei Wang, Jun Xiao, Bin Feng, Fudong Zhu, Kenli Li, Weidi Xie, Jimeng Sun, Jian Wu, Zuozhu Liu,
- Abstract要約: 透明で汎用的な医用ビジョンランゲージモデル(VLM)であるHulu-Medを紹介する。
Hulu-Medは1670万サンプルのキュレートされたコーパスで訓練されており、12の解剖学的システムと14の医用画像モダリティにまたがっている。
Hulu-Medは、30ベンチマーク中27ベンチマークで既存のオープンソースモデルを上回っ、16ベンチマークでGPT-4oなどのプロプライエタリシステムを上回っている。
- 参考スコア(独自算出の注目度): 112.46150793476603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world clinical decision-making requires integrating heterogeneous data, including medical text, 2D images, 3D volumes, and videos, while existing AI systems fail to unify all these signals, limiting their utility. In this paper, we introduce Hulu-Med, a transparent, generalist medical Vision-Language Model (VLM) designed to unify language-only, 2D/3D vision-language, and video understanding within a single architecture. Hulu-Med is trained on a curated corpus of 16.7 million samples, comprising exclusively public or synthetic data, spanning 12 major anatomical systems and 14 medical imaging modalities. Hulu-Med employs a medical-aware token-reduction strategy that prunes redundant visual tokens, achieving up to a 55% reduction for 3D and video inputs, improving cross-modal efficiency, and enabling training at 7B-32B parameter scales in approximately 4,000-40,000 GPU hours. Across 30 public in-domain and out-of-domain medical benchmarks-covering text reasoning, visual question answering, report generation, multilingual dialogue, video understanding, and rare disease diagnosis-Hulu-Med surpasses existing open-source models on 27 of 30 benchmarks and outperforms proprietary systems such as GPT-4o on 16 benchmarks. Despite being a VLM, Hulu-Med outperforms GPT-4o and matches GPT-o1 on the text-only HealthBench. For the first time in the community, we provide a fully transparent, reproducible and cost-effective pipeline for holistic medical vision-language understanding by releasing our end-to-end data curation, training procedures, and model parameters. Code and models are available at https://github.com/ZJUI-AI4H/Hulu-Med.
- Abstract(参考訳): 現実の臨床的意思決定には、医療用テキスト、2D画像、3Dボリューム、ビデオを含む異種データを統合する必要がある。
本稿では, 言語のみ, 2D/3Dビジョン言語, ビデオ理解を単一のアーキテクチャで統一する, 透明で汎用的な医用ビジョンランゲージモデル (VLM) であるHulu-Medを紹介する。
Hulu-Medは、12の解剖学的システムと14の医用画像モダリティにまたがる、公開または合成データのみを含む1670万サンプルのキュレートされたコーパスで訓練されている。
Hulu-Medは、冗長なビジュアルトークンを抽出し、3Dおよびビデオ入力を最大55%削減し、モダル間効率を改善し、約4000~40,000GPU時間で7B-32Bパラメータのトレーニングを可能にする、医療対応のトークン還元戦略を採用している。
30のパブリックドメイン内および外部の医療ベンチマーク - テキスト推論、視覚的質問応答、レポート生成、多言語対話、ビデオ理解、まれな疾患診断を含む。Hulu-Medは、30のベンチマークの27で既存のオープンソースモデルを超え、16のベンチマークでGPT-4oのようなプロプライエタリシステムを上回っている。
VLMであるにもかかわらず、Hulu-MedはGPT-4oを上回り、テキストのみのHealthBenchでGPT-o1とマッチする。
コミュニティで初めて、エンド・ツー・エンドのデータキュレーション、トレーニング手順、モデルパラメータをリリースすることによって、総合的な医療ビジョン言語理解のための、完全に透明で再現可能で費用対効果の高いパイプラインを提供しました。
コードとモデルはhttps://github.com/ZJUI-AI4H/Hulu-Med.comで入手できる。
関連論文リスト
- MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images [25.29568841502814]
一般化MLLMアーキテクチャ上に構築された医療基盤モデルであるMedMOを紹介する。
VQAベンチマークでは、MedMOはベースラインよりも平均精度が+13.7%向上した。
医療報告生成において、MedMOは意味的および臨床的正確性の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2026-02-06T18:59:59Z) - DuPLUS: Dual-Prompt Vision-Language Framework for Universal Medical Image Segmentation and Prognosis [5.494301428436596]
効率的なマルチモーダル医療画像解析のためのディープラーニングフレームワークであるDuPLUSを紹介する。
DuPLUSは、階層的セマンティックプロンプトを利用して分析タスクのきめ細かい制御を行う新しい視覚言語フレームワークを導入した。
セグメンテーションのために、DuPLUSは、30以上の臓器と腫瘍タイプを含む10の異なる医療データセットである3つの画像モダリティを一般化することができる。
論文 参考訳(メタデータ) (2025-10-03T20:01:00Z) - MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos [16.86256309424395]
MedVideoCap-55Kは、医用ビデオ生成のための、最初の大規模、多様な、キャプションに富んだデータセットである。
実際の医療シナリオにまたがる55,000以上のキュレートされたクリップで構成されている。
このデータセット上に構築されたMedGenは,オープンソースモデル間での先行的なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-08T04:58:36Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - OmniV-Med: Scaling Medical Vision-Language Model for Universal Visual Understanding [35.35197484810533]
我々はマルチモーダル医療理解のための統合フレームワークであるOmniV-Medを紹介する。
我々は,多解像度2D/3D画像と映像を統一アーキテクチャで処理する回転位置適応エンコーダを考案した。
本稿では,ボリュームデータと医用ビデオの空間的冗長性を生かした,医療対応型トークンプルーニング機構を提案する。
論文 参考訳(メタデータ) (2025-04-20T17:53:56Z) - HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-27T15:50:41Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。