論文の概要: Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making
- arxiv url: http://arxiv.org/abs/2602.06570v1
- Date: Fri, 06 Feb 2026 10:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.34756
- Title: Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making
- Title(参考訳): Baichuan-M3: 信頼性の高い医療意思決定のための臨床検査のモデル化
- Authors: Baichuan-M3 Team, :, Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang,
- Abstract要約: 本研究では,受動的質問応答から臨床レベルの意思決定支援にパラダイムをシフトさせるために開発された医療用大規模言語モデルBaichuan-M3を紹介する。
i)曖昧さを解決するための積極的情報取得、(ii)散在する証拠をコヒーレントな診断に統一する長期水平推論、(iii)事実の信頼性を確保するための適応幻覚抑制。
- 参考スコア(独自算出の注目度): 23.492314655308295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Baichuan-M3, a medical-enhanced large language model engineered to shift the paradigm from passive question-answering to active, clinical-grade decision support. Addressing the limitations of existing systems in open-ended consultations, Baichuan-M3 utilizes a specialized training pipeline to model the systematic workflow of a physician. Key capabilities include: (i) proactive information acquisition to resolve ambiguity; (ii) long-horizon reasoning that unifies scattered evidence into coherent diagnoses; and (iii) adaptive hallucination suppression to ensure factual reliability. Empirical evaluations demonstrate that Baichuan-M3 achieves state-of-the-art results on HealthBench, the newly introduced HealthBench-Hallu and ScanBench, significantly outperforming GPT-5.2 in clinical inquiry, advisory and safety. The models are publicly available at https://huggingface.co/collections/baichuan-inc/baichuan-m3.
- Abstract(参考訳): 本研究では,受動的質問応答から臨床レベルの意思決定支援にパラダイムをシフトさせるために開発された医療用大規模言語モデルBaichuan-M3を紹介する。
既存のシステムの制約に対処するため、Baichuan-M3は専門的なトレーニングパイプラインを使用して、医師の体系的なワークフローをモデル化する。
主な機能は以下の通り。
一 曖昧性を解決するための積極的情報取得
二 散在する証拠をコヒーレント診断に統一する長期水平推論
三 適応幻覚抑制により、事実の信頼性を確保すること。
ベイチュアンM3はHealthBench, 新しく導入されたHealthBench-Hallu, ScanBenchにおいて, 臨床調査, 諮問, 安全性においてGPT-5.2を著しく上回っている。
モデルはhttps://huggingface.co/collections/baichuan-inc/baichuan-m3.comで公開されている。
関連論文リスト
- Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Triplet-Structured Knowledge Integration for Multi-Turn Medical Reasoning [21.44813166265882]
大規模言語モデル(LLM)は静的医療質問応答(QA)タスクにおいて高いパフォーマンスを示している。
本稿では,LLMの推論信頼性を高める三重構造アプローチであるTriMediQを紹介する。
2つのインタラクティブな医療QAベンチマークの実験によると、TriMediQは既存の5つのベースラインよりも最大10.4%精度が向上している。
論文 参考訳(メタデータ) (2025-10-03T22:11:17Z) - MedCoT-RAG: Causal Chain-of-Thought RAG for Medical Question Answering [4.285647375182588]
大規模言語モデル (LLM) は医学的な疑問に答える上で有望であるが、幻覚や浅い推論に苦しむことが多い。
Retrieval-augmented Generation (RAG)は、外部の医療知識でLSMを強化するための実用的でプライバシー保護の手段を提供する。
MedCoT-RAGは、因果認識ドキュメント検索と構造化チェーン・オブ・シークレット・プロンプトを組み合わせたドメイン固有フレームワークである。
論文 参考訳(メタデータ) (2025-08-20T05:43:26Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Clinical Camel: An Open Expert-Level Medical Language Model with
Dialogue-Based Knowledge Encoding [31.884600238089405]
臨床研究に適したオープン・大型言語モデル(LLM)であるクリニカル・カメルについて述べる。
QLoRAを用いてLLaMA-2を微調整し,医療用LCMの医療用ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-19T23:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。