論文の概要: Agentic clinical reasoning over longitudinal myeloma records: a retrospective evaluation against expert consensus
- arxiv url: http://arxiv.org/abs/2604.24473v1
- Date: Mon, 27 Apr 2026 13:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.025952
- Title: Agentic clinical reasoning over longitudinal myeloma records: a retrospective evaluation against expert consensus
- Title(参考訳): 縦断性骨髄腫記録における治療的臨床推論 : 専門家合意に対する振り返り評価
- Authors: Johannes Moll, Jannik Lübberstedt, Christoph Nuernbergk, Jacob Stroh, Luisa Mertens, Anna Purcarea, Christopher Zirn, Zeineb Benchaaben, Fabian Drexel, Hartmut Häntze, Anirudh Narayanan, Friedrich Puttkammer, Andrei Zhukov, Jacqueline Lammert, Sebastian Ziegelmayer, Markus Graf, Marion Högner, Marcus Makowski, Florian Bassermann, Lisa C. Adams, Jiazhen Pan, Daniel Rueckert, Krischan Braitsch, Keno K. Bressem,
- Abstract要約: 多発性骨髄腫は、数年から数十年にわたって連続的な治療によって管理される。
第3次センターで治療を受けた811人の骨髄腫患者(2001年-2026年)の縦断的臨床記録について振り返り評価を行った。
単パス検索増強世代 (RAG) と反復RAG (反復RAG) , フルコンテクスト入力 (フルコンテクスト入力) を比較した。
エージェント推論は、最も複雑な質問と最長の記録に集中して、共有天井を超える唯一のアプローチであった。
- 参考スコア(独自算出の注目度): 13.511095666949055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple myeloma is managed through sequential lines of therapy over years to decades, with each decision depending on cumulative disease history distributed across dozens to hundreds of heterogeneous clinical documents. Whether LLM-based systems can synthesise this evidence at a level approaching expert agreement has not been established. A retrospective evaluation was conducted on longitudinal clinical records of 811 myeloma patients treated at a tertiary centre (2001-2026), covering 44,962 documents and 1,334,677 laboratory values, with external validation on MIMIC-IV. An agentic reasoning system was compared against single-pass retrieval-augmented generation (RAG), iterative RAG, and full-context input on 469 patient-question pairs from 48 templates at three complexity levels. Reference labels came from double annotation by four oncologists with senior haematologist adjudication. Iterative RAG and full-context input converged on a shared ceiling (75.4% vs 75.8%, p = 1.00). The agentic system reached 79.6% concordance (95% CI 76.4-82.8), exceeding both baselines (+3.8 and +4.2 pp; p = 0.006 and 0.007). Gains rose with question complexity, reaching +9.4 pp on criteria-based synthesis (p = 0.032), and with record length, reaching +13.5 pp in the top decile (n = 10). The system error rate (12.2%) was comparable to expert disagreement (13.6%), but severity was inverted: 57.8% of system errors were clinically significant versus 18.8% of expert disagreements. Agentic reasoning was the only approach to exceed the shared ceiling, with gains concentrated on the most complex questions and longest records. The greater clinical consequence of residual system errors indicates that prospective evaluation in routine care is required before these findings translate into patient benefit.
- Abstract(参考訳): 多発性骨髄腫は、数ダースから数百の異種の臨床文書に散在する累積病歴に応じて、数年から数十年にわたって連続的な治療によって管理される。
LLMに基づくシステムが、専門家合意に近づいているレベルでこの証拠を合成できるかどうかは未定である。
第3センター(2001-2026)で治療した骨髄腫811例(44,962件,検査値1,334,677件)の縦断的臨床評価を行い,MIMIC-IVの外部的検証を行った。
単パス検索拡張世代 (RAG) と反復RAG, および3つの複雑性レベルにおいて48のテンプレートから469の患者問合せペアのフルコンテクスト入力を比較した。
基準ラベルは4人の腫瘍学者による2重アノテーションから得られた。
反復RAGと全コンテキスト入力は共有天井(75.4%対75.8%、p = 1.00)に収束した。
エージェントシステムは79.6%の一致(95% CI 76.4-82.8)に達し、両方のベースライン(+3.8と+4.2 pp; p = 0.006と0.007)を超えた。
ゲインは、基準ベースの合成(p = 0.032)で+9.4ppに達し、レコード長でトップ十進数(n = 10)で+13.5ppに達した。
システムエラー率(12.2%)は専門家の不一致(13.6%)に匹敵するが、重症度は逆転し、57.8%は臨床的に有意であった。
エージェント推論は、最も複雑な質問と最長の記録に集中して、共有天井を超える唯一のアプローチであった。
これらの結果が患者の利益に変換される前に, 定期治療における予後評価が必要であることが示唆された。
関連論文リスト
- A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations [60.2076951536797]
大規模言語モデル(LLM)は、医療シナリオにますます多くデプロイされている。
LLMが会話中に臨床ガイドラインを特定・遵守できるのかは不明確である。
CPGBenchは、LSMの臨床ガイドラインの検出と付着能力をベンチマークする自動フレームワークである。
論文 参考訳(メタデータ) (2026-03-26T09:00:55Z) - Agentic Automation of BT-RADS Scoring: End-to-End Multi-Agent System for Standardized Brain Tumor Follow-up Assessment [5.418360208011741]
脳腫瘍報告・データシステム(BT-RADS)は、びまん性グリオーマ患者のMRI後反応評価を標準化する。
本研究では、BT-RADSの自動分類のためのエンドツーエンドのマルチエージェント・大規模言語モデル(LLM)と畳み込みニューラルネットワーク(CNN)システムについて検討する。
論文 参考訳(メタデータ) (2026-03-23T02:31:54Z) - Clinician input steers frontier AI models toward both accurate and harmful decisions [10.599240857217811]
8つのフロンティアモデルにまたがる21の言語モデル (LLM) を, 差分診断生成と次のステップ勧告に基づいて評価した。
専門的な文脈は、21モデル全体にわたる正しい最終診断の包含を著しく改善した。
GPT-4o 実験では, 臨床症状の明確な不確実性信号により, 対側的文脈での診断性能が向上した。
論文 参考訳(メタデータ) (2026-03-14T23:47:53Z) - From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring [2.0918370570198763]
遠隔患者モニタリング(RPM)は膨大なデータを生成するが、データ量が臨床スタッフを圧倒したため、目覚ましい臨床試験(Tele-HF, BEAT-HF)は失敗した。
RPMバイタルのコンテキストトリアージにモデルコンテキストプロトコル(MCP)を用いた自律型AIエージェントSentinelを開発した。
論文 参考訳(メタデータ) (2026-03-10T00:50:54Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Clinical prediction system of complications among COVID-19 patients: a
development and validation retrospective multicentre study [0.3569980414613667]
2020年4月1日から4月30日までにUAEのアブダビ(AD)で18施設に入院した3,352人の患者から収集したデータを用いた。
最初の24時間に収集されたデータを用いて、機械学習ベースの予後システムは、入院中に7つの合併症を発生させるリスクを予測する。
このシステムは、すべての合併症と両方の領域にわたって良好な精度を達成する。
論文 参考訳(メタデータ) (2020-11-28T18:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。