論文の概要: A Multi-agent Large Language Model Framework to Automatically Assess Performance of a Clinical AI Triage Tool
- arxiv url: http://arxiv.org/abs/2510.26498v1
- Date: Thu, 30 Oct 2025 13:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.842777
- Title: A Multi-agent Large Language Model Framework to Automatically Assess Performance of a Clinical AI Triage Tool
- Title(参考訳): 臨床用AIトリアージツールの性能を自動評価する多エージェント大規模言語モデルフレームワーク
- Authors: Adam E. Flanders, Yifan Peng, Luciano Prevedello, Robyn Ball, Errol Colak, Prahlad Menon, George Shih, Hui-Ming Lin, Paras Lakhani,
- Abstract要約: 本研究の目的は,複数のLDMエージェントのアンサンブルを用いて,画素ベースのAIトリアージツールの信頼性を高めることであった。
- 参考スコア(独自算出の注目度): 5.585587545595609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: The purpose of this study was to determine if an ensemble of multiple LLM agents could be used collectively to provide a more reliable assessment of a pixel-based AI triage tool than a single LLM. Methods: 29,766 non-contrast CT head exams from fourteen hospitals were processed by a commercial intracranial hemorrhage (ICH) AI detection tool. Radiology reports were analyzed by an ensemble of eight open-source LLM models and a HIPAA compliant internal version of GPT-4o using a single multi-shot prompt that assessed for presence of ICH. 1,726 examples were manually reviewed. Performance characteristics of the eight open-source models and consensus were compared to GPT-4o. Three ideal consensus LLM ensembles were tested for rating the performance of the triage tool. Results: The cohort consisted of 29,766 head CTs exam-report pairs. The highest AUC performance was achieved with llama3.3:70b and GPT-4o (AUC= 0.78). The average precision was highest for Llama3.3:70b and GPT-4o (AP=0.75 & 0.76). Llama3.3:70b had the highest F1 score (0.81) and recall (0.85), greater precision (0.78), specificity (0.72), and MCC (0.57). Using MCC (95% CI) the ideal combination of LLMs were: Full-9 Ensemble 0.571 (0.552-0.591), Top-3 Ensemble 0.558 (0.537-0.579), Consensus 0.556 (0.539-0.574), and GPT4o 0.522 (0.500-0.543). No statistically significant differences were observed between Top-3, Full-9, and Consensus (p > 0.05). Conclusion: An ensemble of medium to large sized open-source LLMs provides a more consistent and reliable method to derive a ground truth retrospective evaluation of a clinical AI triage tool over a single LLM alone.
- Abstract(参考訳): 目的:本研究の目的は,複数のLDMエージェントのアンサンブルを集合的に使用して,単一のLSMよりもピクセルベースのAIトリアージツールの信頼性を高めることであった。
方法:14病院の非コントラストCT頭部検査29,766件を商業的頭蓋内出血(ICH)AI検出装置で処理した。
放射線学の報告は、8つのオープンソースLCMモデルとHIPAA準拠のGPT-4oの内部バージョンを、ICHの存在を評価する単一のマルチショットプロンプトを用いて分析した。
1,726のサンプルが手作業でレビューされた。
8つのオープンソースモデルの性能特性とコンセンサスをGPT-4oと比較した。
3つの理想的コンセンサス LLM アンサンブルをトリアージツールの性能評価のために試験した。
結果:コホートは1対29,766頭CTで検査した。
AUCの最高性能は llama3.3:70b と GPT-4o (AUC= 0.78) で達成された。
平均精度はLlama3.3:70b と GPT-4o (AP=0.75 & 0.76) が最も高かった。
Llama3.3:70bはF1スコア(0.81)、リコール(0.85)、精度(0.78)、特異性(0.72)、MCC(0.57)が最も高い。
MCC (95% CI) の理想的な組み合わせは、Full-9 Ensemble 0.571 (0.552-0.591)、Top-3 Ensemble 0.558 (0.537-0.579)、Consensus 0.556 (0.539-0.574)、GPT4o 0.522 (0.500-0.543)である。
Top-3, Full-9, Consensus (p > 0.05) では統計的に有意な差は認められなかった。
結論: 中規模から大規模のオープンソース LLM のアンサンブルは,単一の LLM 単独で臨床用AIトリアージツールの評価を行う上で,より一貫性のある信頼性の高い手法を提供する。
関連論文リスト
- Leveraging Fine-Tuned Large Language Models for Interpretable Pancreatic Cystic Lesion Feature Extraction and Risk Categorization [9.840625513935343]
放射線検査より膵嚢胞性病変(PCL)の特徴を手動で抽出した。
MRI/CTレポートからPCL特徴を自動的に抽出する大規模言語モデル(LLM)の開発と評価を行う。
論文 参考訳(メタデータ) (2025-07-26T15:02:32Z) - Evaluating Large Language Models for Zero-Shot Disease Labeling in CT Radiology Reports Across Organ Systems [1.1373722549440357]
胸部,腹部,骨盤CTの多自由度ラベル付けのためのルールベースアルゴリズム(RBA),RadBERT,および3つの軽量オープンウェイトLCMを比較した。
コーエンのKappaとマイクロ/マクロ平均F1スコアを用いて評価した。
論文 参考訳(メタデータ) (2025-06-03T18:00:08Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - A Comprehensive Study on Large Language Models for Mutation Testing [36.00296047226433]
大規模言語モデル(LLM)は、最近、研究作業と産業実践の両方においてミュータントを生成するために使用されている。
BugFarm と LLMorpheus (最先端の2つの LLM ベースのアプローチ) を,Java の実世界の2つのバグベンチマークから,851 の実際のバグに対して評価した。
以上の結果から, LLMは既存のルールベースアプローチと比較して, 実際のバグに近づき, 111.29%の障害検出率を持つ, より多様な変異体を生成することが明らかとなった。
論文 参考訳(メタデータ) (2024-06-14T08:49:41Z) - COVID-MTL: Multitask Learning with Shift3D and Random-weighted Loss for
Automated Diagnosis and Severity Assessment of COVID-19 [39.57518533765393]
新型コロナウイルスの正確かつ効果的な評価を支援する自動化方法が緊急に必要である。
我々は,放射線学とNATの両方において,自動かつ同時検出と重症度評価が可能なエンドツーエンドマルチタスク学習フレームワーク(COVID-MTL)を提案する。
論文 参考訳(メタデータ) (2020-12-10T08:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。