論文の概要: QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training
- arxiv url: http://arxiv.org/abs/2506.00711v1
- Date: Sat, 31 May 2025 21:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.498862
- Title: QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training
- Title(参考訳): QoQ-Med:ドメイン対応GRPOトレーニングによるマルチモーダル臨床基礎モデルの構築
- Authors: Wei Dai, Peilin Chen, Chanakya Ekbote, Paul Pu Liang,
- Abstract要約: QoQ-Medは、医療画像、時系列信号、およびテキストレポートを共同で原因付ける、最初のオープン・ジェネラリスト臨床基礎モデルである。
DRPOトレーニングは,すべての視覚領域において,マクロF1の診断性能を平均43%向上させることを示した。
QoQ-Medは集中的なセグメンテーションデータに基づいてトレーニングされており、オープンモデルよりもIoU 10倍高い、診断に関連する健全な領域をハイライトすることができる。
- 参考スコア(独自算出の注目度): 27.457139119626884
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Clinical decision-making routinely demands reasoning over heterogeneous data, yet existing multimodal language models (MLLMs) remain largely vision-centric and fail to generalize across clinical specialties. To bridge this gap, we introduce QoQ-Med-7B/32B, the first open generalist clinical foundation model that jointly reasons across medical images, time-series signals, and text reports. QoQ-Med is trained with Domain-aware Relative Policy Optimization (DRPO), a novel reinforcement-learning objective that hierarchically scales normalized rewards according to domain rarity and modality difficulty, mitigating performance imbalance caused by skewed clinical data distributions. Trained on 2.61 million instruction tuning pairs spanning 9 clinical domains, we show that DRPO training boosts diagnostic performance by 43% in macro-F1 on average across all visual domains as compared to other critic-free training methods like GRPO. Furthermore, with QoQ-Med trained on intensive segmentation data, it is able to highlight salient regions related to the diagnosis, with an IoU 10x higher than open models while reaching the performance of OpenAI o4-mini. To foster reproducibility and downstream research, we release (i) the full model weights, (ii) the modular training pipeline, and (iii) all intermediate reasoning traces at https://github.com/DDVD233/QoQ_Med.
- Abstract(参考訳): 臨床意思決定は、不均一なデータに対する推論を常々要求するが、既存のマルチモーダル言語モデル(MLLM)は、主に視覚中心であり、臨床専門分野にまたがる一般化に失敗する。
このギャップを埋めるために、医用画像、時系列信号、およびテキストレポートを共同で原因付ける最初のオープン・ジェネラリスト臨床基盤モデルであるQoQ-Med-7B/32Bを導入する。
QoQ-Medは、ドメインの規則性とモダリティの難しさに応じて正規化報酬を階層的にスケールする新しい強化学習目標であるDomain-Aware Relative Policy Optimization (DRPO)を訓練し、歪んだ臨床データ分布によるパフォーマンスの不均衡を軽減する。
9つの臨床領域にまたがる2.61万の指導チューニングペアをトレーニングすることにより、DRPOトレーニングはGRPOのような批判のない他の訓練方法と比較して、すべての視覚領域で平均してマクロF1の診断性能を43%向上させることを示した。
さらに、集中的セグメンテーションデータに基づいてトレーニングされたQoQ-Medでは、OpenAI o4-miniの性能に到達しながら、オープンモデルよりもIoU 10倍高い、診断に関連する健全な領域をハイライトすることができる。
再現性と下流の研究を促進するために,我々はリリースする
(i)フルモデルウェイト。
(ii)モジュラートレーニングパイプライン、および
(iii) https://github.com/DDVD233/QoQ_Med。
関連論文リスト
- MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis [10.082738539201804]
最近の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトによる医用画像に干渉する。
MedBridgeは,医用画像の正確な診断のためにトレーニング済みのVLMを再利用した,軽量なマルチモーダル適応フレームワークである。
MedBridgeはマルチラベル胸部疾患の診断において最先端のVLM適応法と比較して6~15%改善した。
論文 参考訳(メタデータ) (2025-05-27T19:37:51Z) - CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models [27.726366396356763]
大規模統合型マルチモーダルベンチマーク(CLIMB)について紹介する。
CLIMBは、画像、言語、時間、グラフのモダリティにまたがる多様な臨床データを統一する包括的なベンチマークである。
CLIMBの事前訓練は、モデルの新たなタスクへの一般化能力を効果的に改善し、タスクに適した融合戦略と組み合わせた場合、強力な単モーダルエンコーダ性能はマルチモーダルパフォーマンスによく変換される。
論文 参考訳(メタデータ) (2025-03-09T01:45:05Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Repurposing Foundation Model for Generalizable Medical Time Series Classification [16.21546283978257]
FORMEDは、バックボーン基盤モデルを再利用して、目に見えないデータセット上で高度に一般化可能なMedTS分類を可能にするフレームワークである。
我々は,5種類のMedTSデータセットを用いて,11のタスク特化モデル (TSM) と4のタスク特化適応 (TSA) 手法のベンチマークを行った。
以上の結果から,F1スコア(ADFTDデータセット上で)を最大35%向上させることができた。
論文 参考訳(メタデータ) (2024-10-03T23:50:04Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。