論文の概要: Hulu-Med: A Transparent Generalist Model towards Holistic Medical Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2510.08668v1
- Date: Thu, 09 Oct 2025 17:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.315003
- Title: Hulu-Med: A Transparent Generalist Model towards Holistic Medical Vision-Language Understanding
- Title(参考訳): Hulu-Med:全体像理解のための透明なジェネリストモデル
- Authors: Songtao Jiang, Yuan Wang, Sibo Song, Tianxiang Hu, Chenyi Zhou, Bin Pu, Yan Zhang, Zhibo Yang, Yang Feng, Joey Tianyi Zhou, Jin Hao, Zijian Chen, Ruijia Wu, Tao Tang, Junhui Lv, Hongxia Xu, Hongwei Wang, Jun Xiao, Bin Feng, Fudong Zhu, Kenli Li, Weidi Xie, Jimeng Sun, Jian Wu, Zuozhu Liu,
- Abstract要約: Hulu-Medは透明な医療用VLMで、これらすべてのモダリティの理解を統一する。
パッチベースのビジョンエンコーダとLCMデコーダを統一して構築され、Hulu-Medは2Dから3D、ビデオの理解のために167万 (M) のサンプルを徐々に訓練した。
- 参考スコア(独自算出の注目度): 112.46150793476603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world clinical decision-making grapples with integrating information from diverse data modalities, including medical text, 2D/3D images, and video, leading to inefficiencies and potential diagnostic oversights. While generalist vision-language models (VLMs) offer promise, their medical development faces challenges of opaque pipelines, data scarcity, and architectural inflexibility. Here we present Hulu-Med, a transparent medical VLM that unifies understanding across all these modalities. Built upon a unified patch-based vision encoder and an LLM decoder, Hulu-Med was progressively trained on 16.7 million (M) samples to scale from 2D to 3D and video comprehension. The medical-aware token reduction enables efficient training, requiring only 4,000 to 40,000 GPU hours for 7B to 32B parameter variants. Extensive evaluation across 30 benchmarks exhibits state-of-the-art performance, surpassing leading open-source models and competing with proprietary systems in tasks spanning visual question-answering, medical report generation, and complex reasoning in multilingual and rare disease scenarios. By open-sourcing our complete pipeline, we establish that high-performance medical VLM can be achieved transparently, providing a foundational tool for accessible and impactful clinical AI. Code is released on \href{https://github.com/ZJUI-AI4H/Hulu-Med}{https://github.com/ZJUI-AI4H/Hulu-Med}.
- Abstract(参考訳): 現実の臨床的意思決定は、医療用テキスト、2D/3D画像、ビデオなどの様々なデータモダリティからの情報を統合することで、非効率性と潜在的な診断監督につながる。
一般的なビジョン言語モデル(VLM)は約束を提供するが、その医療開発は不透明なパイプライン、データの不足、アーキテクチャの柔軟性といった課題に直面している。
ここでは、Hulu-Medという透明な医療用VLMを紹介します。
パッチベースのビジョンエンコーダとLCMデコーダを統一して構築され、Hulu-Medは2Dから3D、ビデオの理解のために167万 (M) のサンプルを徐々に訓練した。
医療対応トークンの削減は、効率的なトレーニングを可能にし、7Bから32Bパラメータの変種に対して、わずか4,000から40,000のGPU時間しか必要としない。
30ベンチマークにわたる大規模な評価は、最先端のパフォーマンスを示し、主要なオープンソースモデルを超え、視覚的質問応答、医療報告生成、多言語およびまれな疾患シナリオにおける複雑な推論を含むタスクにおいて、プロプライエタリなシステムと競合する。
完全なパイプラインをオープンソース化することで、高性能な医療用VLMを透過的に実現し、アクセシブルで影響力のある臨床AIの基礎となるツールを提供する。
コードは \href{https://github.com/ZJUI-AI4H/Hulu-Med}{https://github.com/ZJUI-AI4H/Hulu-Med} で公開されている。
関連論文リスト
- MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - OmniV-Med: Scaling Medical Vision-Language Model for Universal Visual Understanding [35.35197484810533]
我々はマルチモーダル医療理解のための統合フレームワークであるOmniV-Medを紹介する。
我々は,多解像度2D/3D画像と映像を統一アーキテクチャで処理する回転位置適応エンコーダを考案した。
本稿では,ボリュームデータと医用ビデオの空間的冗長性を生かした,医療対応型トークンプルーニング機構を提案する。
論文 参考訳(メタデータ) (2025-04-20T17:53:56Z) - HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-27T15:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。