論文の概要: PulseMind: A Multi-Modal Medical Model for Real-World Clinical Diagnosis
- arxiv url: http://arxiv.org/abs/2601.07344v1
- Date: Mon, 12 Jan 2026 09:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.306777
- Title: PulseMind: A Multi-Modal Medical Model for Real-World Clinical Diagnosis
- Title(参考訳): PulseMind: リアルタイム臨床診断のためのマルチモーダル医療モデル
- Authors: Jiao Xu, Junwei Liu, Jiangwei Lao, Qi Zhu, Yunpeng Zhao, Congyun Jin, Shinan Liu, Zhihong Lu, Lihe Zhang, Xin Chen, Jian Wang, Ping Wang,
- Abstract要約: 我々はPulseMindを紹介した。PulseMindは、体系的にキュレートされたデータセット、包括的な評価ベンチマーク、カスタマイズされたトレーニングフレームワークを統合した、新しいマルチモーダル診断モデルのファミリーである。
具体的には、まず診断データセット、MediScopeを構築し、98,000件の現実世界のマルチターン・コンサルテーションと601,500件の医療画像で構成され、10の主要な臨床部門と200以上の亜種にまたがる。
そこで,4次元評価プロトコルを用いたマルチターン診断コンサルテーションベンチマークであるPulseMind Benchmarkを開発した。
- 参考スコア(独自算出の注目度): 32.30982339390615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in medical multi-modal models focus on specialized image analysis like dermatology, pathology, or radiology. However, they do not fully capture the complexity of real-world clinical diagnostics, which involve heterogeneous inputs and require ongoing contextual understanding during patient-physician interactions. To bridge this gap, we introduce PulseMind, a new family of multi-modal diagnostic models that integrates a systematically curated dataset, a comprehensive evaluation benchmark, and a tailored training framework. Specifically, we first construct a diagnostic dataset, MediScope, which comprises 98,000 real-world multi-turn consultations and 601,500 medical images, spanning over 10 major clinical departments and more than 200 sub-specialties. Then, to better reflect the requirements of real-world clinical diagnosis, we develop the PulseMind Benchmark, a multi-turn diagnostic consultation benchmark with a four-dimensional evaluation protocol comprising proactiveness, accuracy, usefulness, and language quality. Finally, we design a training framework tailored for multi-modal clinical diagnostics, centered around a core component named Comparison-based Reinforcement Policy Optimization (CRPO). Compared to absolute score rewards, CRPO uses relative preference signals from multi-dimensional com-parisons to provide stable and human-aligned training guidance. Extensive experiments demonstrate that PulseMind achieves competitive performance on both the diagnostic consultation benchmark and public medical benchmarks.
- Abstract(参考訳): 医療マルチモーダルモデルの最近の進歩は、皮膚科、病理学、放射線学のような専門的な画像分析に焦点を当てている。
しかし、異種入力を伴い、患者と物理学的相互作用の間、継続的な文脈理解を必要とする実世界の臨床診断の複雑さを完全には捉えていない。
このギャップを埋めるために、PulseMindは、体系的にキュレートされたデータセット、包括的な評価ベンチマーク、調整されたトレーニングフレームワークを統合した、新しいマルチモーダル診断モデルのファミリーである。
具体的には、まず診断データセット、MediScopeを構築し、98,000件の現実世界のマルチターン・コンサルテーションと601,500件の医療画像で構成され、10の主要な臨床部門と200以上の亜種にまたがる。
そこで, 実世界の臨床診断の要件をよりよく反映するために, 積極性, 正確性, 有用性, 言語品質の4次元評価プロトコルを備えたマルチターン診断コンサルテーションベンチマークであるPulseMind Benchmarkを開発した。
最後に、比較ベース強化ポリシー最適化(CRPO)と呼ばれるコアコンポーネントを中心に、マルチモーダルな臨床診断に適したトレーニングフレームワークを設計する。
絶対スコアの報酬と比較して、CRPOは多次元のコンパラゾンからの相対的な選好信号を用いて、安定かつ人間に沿ったトレーニングガイダンスを提供する。
広範な実験により、PulseMindは、診断コンサルテーションベンチマークと公開医療ベンチマークの両方で競合性能を達成している。
関連論文リスト
- MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。
本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文 参考訳(メタデータ) (2026-01-06T13:56:33Z) - Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-05-20T09:14:53Z) - Empowering Medical Multi-Agents with Clinical Consultation Flow for Dynamic Diagnosis [20.59719567178192]
コンサルテーションプロセス全体をシミュレートするために,コンサルテーションフローと強化学習(RL)にインスパイアされたマルチエージェントフレームワークを提案する。
本手法は,臨床相談フローと医用教科書から構築した階層的行動集合を取り入れ,意思決定過程を効果的に指導する。
この戦略はエージェントのインタラクションを改善し、動的状態に基づいたアクションの適応と最適化を可能にする。
論文 参考訳(メタデータ) (2025-03-19T08:47:18Z) - Multimodal Clinical Benchmark for Emergency Care (MC-BEC): A
Comprehensive Benchmark for Evaluating Foundation Models in Emergency
Medicine [2.6136253491179637]
MC-BEC(Multimodal Clinical Benchmark for Emergency Care)は、救急医療の基礎モデルを評価するためのベンチマークである。
MC-BECは、患者の償還、処分、救急部門(ED)の再訪の予測を含む、数分から数日のタイムスケールでの臨床的に関連する予測タスクに焦点を当てている。
データセットには、トリアージ情報、先行診断および医薬品、連続測定されたバイタルサイン、心電図および光胸部電図波形、訪問中の注文と治療、画像研究の自由テキストレポート、ED診断、配置、その後の情報を含む幅広い詳細な臨床データが含まれている。
論文 参考訳(メタデータ) (2023-11-07T20:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。