論文の概要: Baichuan-M2: Scaling Medical Capability with Large Verifier System
- arxiv url: http://arxiv.org/abs/2509.02208v1
- Date: Tue, 02 Sep 2025 11:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.008159
- Title: Baichuan-M2: Scaling Medical Capability with Large Verifier System
- Title(参考訳): Baichuan-M2:大規模検証システムによる医療能力のスケーリング
- Authors: Baichuan-M2 Team, :, Chengfeng Dou, Chong Liu, Fan Yang, Fei Li, Jiyuan Jia, Mingyang Chen, Qiang Ju, Shuai Wang, Shunya Dang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Chenzheng Zhu, Da Pan, Fei Deng, Guangwei Ai, Guosheng Dong, Hongda Zhang, Jinyang Tai, Jixiang Hong, Kai Lu, Linzhuang Sun, Peidong Guo, Qian Ma, Rihui Xin, Shihui Yang, Shusen Zhang, Yichuan Mo, Zheng Liang, Zhishou Zhang, Hengfu Cui, Zuyi Zhu, Xiaochuan Wang,
- Abstract要約: 静的解答検証を超越した,新しい動的検証フレームワークを提案する。
多段階強化学習戦略によって訓練された医療強化推論モデルBaichuan-M2を開発した。
HealthBenchでの評価では、Baichuan-M2は、他のすべてのオープンソースモデルや、最も高度なクローズドソースモデルよりも優れています。
- 参考スコア(独自算出の注目度): 40.86227022086866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) advance in conversational and reasoning capabilities, their practical application in healthcare has become a critical research focus. However, there is a notable gap between the performance of medical LLMs on static benchmarks such as USMLE and their utility in real-world clinical decision-making. This discrepancy arises because traditional exams fail to capture the dynamic, interactive nature of medical consultations. To address this challenge, we introduce a novel dynamic verification framework that moves beyond static answer verifier, establishing a large-scale, high-fidelity interactive reinforcement learning system. Our framework comprises two key components: a Patient Simulator that creates realistic clinical environments using de-identified medical records, and a Clinical Rubrics Generator that dynamically produces multi-dimensional evaluation metrics. Building on this foundation, we develop Baichuan-M2, a 32B-parameter medical augmented reasoning model trained through a multi-stage reinforcement learning strategy with an improved Group Relative Policy Optimization (GRPO) algorithm. Evaluated on HealthBench, Baichuan-M2 outperforms all other open-source models and most advanced closed-source counterparts, achieving a score above 32 on the challenging HealthBench Hard benchmark-previously exceeded only by GPT-5. Our work demonstrates that robust dynamic verifier system is essential for aligning LLM capabilities with practical clinical applications, establishing a new Pareto front in the performance-parameter trade-off for medical AI deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)が会話や推論能力に進歩するにつれ、医療における実践的応用が重要な研究対象となっている。
しかし、USMLEなどの静的ベンチマークにおける医療用LLMの性能と、実際の臨床診断におけるそれらの有用性との間には、顕著なギャップがある。
この違いは、従来の試験が医療相談のダイナミックでインタラクティブな性質を捉えていないために生じる。
この課題に対処するために,静的解答検証を超えて,大規模かつ高忠実な対話型強化学習システムを構築する,新しい動的検証フレームワークを導入する。
本フレームワークは,非特定医療記録を用いて現実的な臨床環境を創出する患者シミュレータと,多次元評価指標を動的に生成する臨床ラグビー生成装置の2つの重要な構成要素から構成される。
この基礎の上に構築されたBaichuan-M2は,グループ相対ポリシー最適化(GRPO)アルゴリズムを改良した多段階強化学習戦略により訓練された32Bパラメータの医療用拡張推論モデルである。
HealthBenchで評価されたBaichuan-M2は、他のすべてのオープンソースモデルや最も高度なクローズドソースモデルよりも優れており、GPT-5でしか達成できなかったHealthBench Hardベンチマークにおいて、32以上のスコアを獲得した。
我々の研究は、LLM能力を実用的な臨床応用と整合させる上で、ロバストな動的検証システムが不可欠であることを示し、医療用AIデプロイメントのパフォーマンスパラメータトレードオフにおける新しいParetoフロントを確立した。
関連論文リスト
- Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - DynamiCare: A Dynamic Multi-Agent Framework for Interactive and Open-Ended Medical Decision-Making [4.801722645791233]
DynamiCareは、臨床診断をマルチラウンドでインタラクティブなループとしてモデル化する、新しい動的マルチエージェントフレームワークである。
広汎な実験を通してダイナミケアの実現可能性と有効性を示す。
論文 参考訳(メタデータ) (2025-07-03T13:43:10Z) - Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation [33.22110638954145]
医療用大規模言語モデル(MLLM)の包括的フレームワークであるInfi-Medを提案する。
Infi-Medは,(1)品質の高い教師付き微調整データセットを最小限のサンプル要求でキュレート・構築する資源効率の高いアプローチ,(2)クロスモーダル統合と臨床タスク理解のためのマルチモーダル推論能力の向上,(3)医療モダリティとタスクタイプをまたいだモデルパフォーマンスを評価する体系的評価システム,の3点を紹介した。
本実験は,Infi-Medが臨床シナリオへの迅速な適応性を維持しつつ,一般医学的推論におけるSOTA(State-of-the-art)のパフォーマンスを達成できることを実証するものである。
論文 参考訳(メタデータ) (2025-05-29T10:31:57Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.360760580820966]
放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。
このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。
クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。