論文の概要: MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
- arxiv url: http://arxiv.org/abs/2602.12705v1
- Date: Fri, 13 Feb 2026 08:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.888659
- Title: MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
- Title(参考訳): MedXIAOHE:医療MLLM構築のための総合的なレシピ
- Authors: Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang,
- Abstract要約: MedXIAOHEは、医学的理解と推論を現実の臨床に応用するために設計された医療ビジョン言語基盤モデルである。
異種医療コーパスを組織し,知識範囲を広げるエンティティ対応型継続事前学習フレームワークを提案する。
医療専門家レベルの推論と相互作用のために、MedXIAOHEは強化学習とツール強化エージェントトレーニングを通じて様々な医学的推論パターンを取り入れている。
- 参考スコア(独自算出の注目度): 21.189398460029008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.
- Abstract(参考訳): MedXIAOHEは、医用ビジョン言語基礎モデルであり、現実の臨床応用における汎用的な医学的理解と推論を促進するために設計されている。
MedXIAOHEは様々な医療ベンチマークで最先端のパフォーマンスを達成し、複数の機能で主要なクローズドソースマルチモーダルシステムを上回っている。
これを実現するために,異種医療コーパスを組織し,知識範囲を広げ,長期のギャップ(まれな疾患など)を減らすためのエンティティ対応型継続事前訓練フレームワークを提案する。
医療専門家レベルの推論と相互作用のために、MedXIAOHEは強化学習とツール強化されたエージェントトレーニングを通じて様々な医学的推論パターンを取り入れ、検証可能な意思決定トレースによる多段階の診断的推論を可能にする。
MedXIAOHEは、実際の使用の信頼性を向上させるため、医療指導の順応性を改善した、ユーザ推奨のルーブリック、エビデンスに基づく推論、低ハロシン化のロングフォームレポート生成を統合している。
我々はこのレポートを公開し、我々の実践的な設計選択、スケールインサイト、評価フレームワークを文書化し、さらなる研究を促したいと考えています。
関連論文リスト
- MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow [14.478357882578234]
現代医学では、臨床診断は主にテキストおよび視覚データの包括的分析に依存している。
大規模視覚言語モデル(VLM)およびエージェントベース手法の最近の進歩は、医学的診断に大きな可能性を秘めている。
現代医学における診断原理に従う新しいエージェント推論パラダイムであるMedAgent-Proを提案する。
論文 参考訳(メタデータ) (2025-03-21T14:04:18Z) - MedAide: Information Fusion and Anatomy of Medical Intents via LLM-based Agent Collaboration [19.951977369610983]
MedAideは、意図認識情報融合と協調推論を可能にするために設計された医療用マルチエージェントコラボレーションフレームワークである。
我々は,構文制約と検索拡張生成を組み合わせた正規化誘導モジュールを導入し,複雑なクエリを分解する。
また,エージェントの意図の適応認識と更新を実現するために,動的意図のプロトタイプマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2024-10-16T13:10:27Z) - MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway
Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。
このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文 参考訳(メタデータ) (2024-03-11T10:57:45Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。