論文の概要: MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine
- arxiv url: http://arxiv.org/abs/2603.00842v1
- Date: Sun, 01 Mar 2026 00:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.381608
- Title: MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine
- Title(参考訳): MedGPT-oss: バイオメディシンのための汎用ビジョンランゲージモデルの訓練
- Authors: Kai Zhang, Zhengqing Yuan, Cheng Peng, Songlin Zhao, Mengxian Lyu, Ziyi Chen, Yanfang Ye, Wei Liu, Ying Zhang, Kaleb E Smith, Lifang He, Lichao Sun, Yonghui Wu,
- Abstract要約: MEDGPT-OSSはオープンウェイトで20Bパラメータの視覚言語モデルであり、臨床AIのオープンな研究を促進するために設計されている。
MEDGPT-OSSは、アーキテクチャの複雑さに頼るのではなく、最適化された3段階のトレーニングカリキュラムを通じて、GPT-oss言語バックボーンと視覚的なフロントエンドをペアリングする。
アウト・オブ・ディストリビューションのマルチモーダル推論や複雑なテキストのみの臨床タスクにおいて、より大きなオープン医療モデルを上回る成果を上げている。
- 参考スコア(独自算出の注目度): 38.06252990946545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical multimodal assistants have the potential to unify radiology, pathology, and clinical-text reasoning, yet a critical deployment gap remains: top-performing systems are either closed-source or computationally prohibitive, precluding the on-premises deployment required for patient privacy and PHI compliance. We introduce MEDGPT-OSS, an open-weight, 20B-parameter generalist vision-language model designed to facilitate open research in clinical AI. Rather than relying on architectural complexity, MEDGPT-OSS pairs the GPT-oss language backbone with a visual front-end via a optimized, three-stage training curriculum. By progressively domain-adapting these modules through rigorous data curation and long-context multimodal alignment, we demonstrate that a 20B model can bridge the capacity gap. It successfully outperforms larger open medical models on out-of-distribution (OOD) multimodal reasoning and complex text-only clinical tasks. By unifying diverse modalities under a single instruction-following interface, MEDGPT-OSS maintains a parameter-efficient footprint fully compatible with commodity GPUs. We release the complete training recipe, open-weight checkpoints, and a rigorous evaluation harness to serve as a verifiable foundation for privacy-preserving, institution-specific clinical AI research.
- Abstract(参考訳): バイオメディカルマルチモーダルアシスタントは、放射線学、病理学、臨床テキスト推論を統一する可能性があるが、重要なデプロイメントギャップが残っている。
MEDGPT-OSSは、臨床AIにおけるオープンな研究を促進するために設計された、オープンウェイトな20Bパラメータ・ジェネラリストビジョン言語モデルである。
MEDGPT-OSSは、アーキテクチャの複雑さに頼るのではなく、最適化された3段階のトレーニングカリキュラムを通じて、GPT-oss言語バックボーンと視覚的なフロントエンドをペアリングする。
厳密なデータキュレーションと長文のマルチモーダルアライメントにより、これらのモジュールを段階的にドメイン適応させることにより、20Bモデルがキャパシティギャップを埋めることを示す。
アウト・オブ・ディストリビューション(OOD)マルチモーダル推論と複雑なテキストのみの臨床タスクにおいて、より大きなオープン医療モデルを上回る成果を上げている。
MEDGPT-OSSは、単一の命令追従インタフェースの下で多様なモダリティを統一することにより、パラメータ効率の高いフットプリントをコモディティGPUと完全互換に維持する。
我々は、プライバシー保護、機関固有の臨床AI研究の基盤として、完全なトレーニングレシピ、オープンウェイトチェックポイント、厳格な評価ハーネスをリリースする。
関連論文リスト
- MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - Vision Foundry: A System for Training Foundational Vision AI Models [0.0]
Vision FoundryはコードフリーのHIPAA準拠のプラットフォームで、ビジョンモデルの事前トレーニング、適応、デプロイを民主化する。
高度な表現学習と実践的応用のギャップを埋めることで、Vision Foundryはドメインの専門家が最先端の臨床AIツールを開発することを可能にする。
論文 参考訳(メタデータ) (2025-12-03T14:02:22Z) - DuPLUS: Dual-Prompt Vision-Language Framework for Universal Medical Image Segmentation and Prognosis [5.494301428436596]
効率的なマルチモーダル医療画像解析のためのディープラーニングフレームワークであるDuPLUSを紹介する。
DuPLUSは、階層的セマンティックプロンプトを利用して分析タスクのきめ細かい制御を行う新しい視覚言語フレームワークを導入した。
セグメンテーションのために、DuPLUSは、30以上の臓器と腫瘍タイプを含む10の異なる医療データセットである3つの画像モダリティを一般化することができる。
論文 参考訳(メタデータ) (2025-10-03T20:01:00Z) - A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - An Agentic Model Context Protocol Framework for Medical Concept Standardization [5.12407270785129]
モデルコンテキストプロトコル(MCP)に基づくゼロトレーニング・幻覚防止マッピングシステムの開発
このシステムは説明可能なマッピングを可能にし、最小限の労力で効率と精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-04T02:32:22Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - From large language models to multimodal AI: A scoping review on the potential of generative AI in medicine [40.23383597339471]
マルチモーダルAIは、イメージング、テキスト、構造化データを含む多様なデータモダリティを単一のモデルに統合することができる。
このスコーピングレビューは、マルチモーダルAIの進化を探求し、その方法、アプリケーション、データセット、臨床環境での評価を強調している。
診断支援,医療報告生成,薬物発見,会話型AIの革新を推進し,一過性のアプローチからマルチモーダルアプローチへのシフトを示唆した。
論文 参考訳(メタデータ) (2025-02-13T11:57:51Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。