論文の概要: Evidence-Grounded Subspecialty Reasoning: Evaluating a Curated Clinical Intelligence Layer on the 2025 Endocrinology Board-Style Examination
- arxiv url: http://arxiv.org/abs/2602.16050v1
- Date: Tue, 17 Feb 2026 21:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.451208
- Title: Evidence-Grounded Subspecialty Reasoning: Evaluating a Curated Clinical Intelligence Layer on the 2025 Endocrinology Board-Style Examination
- Title(参考訳): Evidence-Grounded Subspecialty Reasoning:Evidence-Grounded Subspecialty Reasoning:Evaluation of a Curated Clinical Intelligence Layer on the 2025 Endocrinology Board-Style Examination
- Authors: Amir Hosseinian, MohammadReza Zare Shahneh, Umer Mansoor, Gilbert Szeto, Kirill Karlin, Nima Aghaeepour,
- Abstract要約: 1月ミラー(英: January Mirror)は、エビデンスに基づく臨床推論システムである。
Mirrorは87.5%の精度(105/120;95% CI:80.4-92.3%)を達成した。
74.2%の出力が少なくとも1つのガイドラインレベルの情報源から引用され、手動による検証では100%の引用精度が得られた。
- 参考スコア(独自算出の注目度): 0.39725050455082056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Large language models have demonstrated strong performance on general medical examinations, but subspecialty clinical reasoning remains challenging due to rapidly evolving guidelines and nuanced evidence hierarchies. Methods: We evaluated January Mirror, an evidence-grounded clinical reasoning system, against frontier LLMs (GPT-5, GPT-5.2, Gemini-3-Pro) on a 120-question endocrinology board-style examination. Mirror integrates a curated endocrinology and cardiometabolic evidence corpus with a structured reasoning architecture to generate evidence-linked outputs. Mirror operated under a closed-evidence constraint without external retrieval. Comparator LLMs had real-time web access to guidelines and primary literature. Results: Mirror achieved 87.5% accuracy (105/120; 95% CI: 80.4-92.3%), exceeding a human reference of 62.3% and frontier LLMs including GPT-5.2 (74.6%), GPT-5 (74.0%), and Gemini-3-Pro (69.8%). On the 30 most difficult questions (human accuracy less than 50%), Mirror achieved 76.7% accuracy. Top-2 accuracy was 92.5% for Mirror versus 85.25% for GPT-5.2. Conclusions: Mirror provided evidence traceability: 74.2% of outputs cited at least one guideline-tier source, with 100% citation accuracy on manual verification. Curated evidence with explicit provenance can outperform unconstrained web retrieval for subspecialty clinical reasoning and supports auditability for clinical deployment.
- Abstract(参考訳): 背景: 大規模言語モデルは, 一般的な医学的検査において高い性能を示してきたが, 急激なガイドラインや, 曖昧な証拠の階層化により, サブ種別臨床推論はいまだに困難である。
方法:120項目の内分泌検査でフロンティアLSMs (GPT-5, GPT-5.2, Gemini-3-Pro) に対するエビデンス的臨床推論システムである January Mirror の評価を行った。
ミラーは、硬化した内分泌学と心メタボリックエビデンスコーパスを構造的推論アーキテクチャに統合し、エビデンスにリンクした出力を生成する。
Mirrorは外部検索なしでクローズドエビデンス制約の下で動作した。
コンパレータ LLM はガイドラインや一次文献にリアルタイムでアクセスする。
その結果: Mirror は 87.5% の精度 (105/120; 95% CI: 80.4-92.3%) を達成し, 62.3%, GPT-5.2 (74.6%), GPT-5 (74.0%), Gemini-3-Pro (69.8%) を含むフロンティア LLM を抜いた。
最も難しい30の質問(人間の精度が50%未満)で、ミラーは76.7%の精度を達成した。
トップ2の精度はミラーが92.5%、GPT-5.2が85.25%であった。
74.2%の出力が少なくとも1つのガイドラインレベルの情報源から引用され、手動による検証では100%の引用精度が得られた。
明示的な証明を伴うキュレートされたエビデンスは、サブ種別臨床推論のための制約のないWeb検索よりも優れ、臨床展開のための監査性をサポートする。
関連論文リスト
- DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - Rethinking Retrieval-Augmented Generation for Medicine: A Large-Scale, Systematic Expert Evaluation and Practical Insights [42.23030568766672]
大きな言語モデル(LLM)は医学の風景を変えつつある。
Retrieval-augmented Generation (RAG) はこれらの制限に対処するために広く採用されている。
今回,医学におけるRAGの総合的評価について紹介する。
論文 参考訳(メタデータ) (2025-11-10T06:00:12Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight [1.0471566053937098]
GPT-5は大きな言語モデルであり、オンコロジーの使用に特化して販売されている。
TXITベンチマークでは、GPT-5の平均精度は92.8%で、GPT-4(78.8%)とGPT-3.5(62.1%)を上回った。
ビグネット評価では、GPT-5の治療勧告は、正当性(平均3.24/4、95%CI:3.11-3.38)と包括性(3.59/4、95%CI:3.49-3.69)を高く評価した。
幻覚は稀であったが,GPT-5による推奨が臨床導入に先立って厳密な専門家の監視を必要としていることを示す実体的誤りの存在
論文 参考訳(メタデータ) (2025-08-29T16:55:25Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology [34.82874325860935]
医学における大規模言語モデル(LLM)は、幻覚的証拠に基づく証拠を欠いた応答を生成する可能性がある。
我々は,7万件の眼科用文書を用いたRAGパイプラインを開発し,推測時間にLCMを増大させるために関連文書を検索した。
医療従事者10名を対象に,RAGの有無を問う質問100件において, LLMの500件以上の基準を含む回答を評価した。
論文 参考訳(メタデータ) (2024-09-20T21:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。