論文の概要: IyàwóBench: A Benchmark for Evaluating Large Language Model Clinical Triage Accuracy on Undifferentiated Febrile Illness in Nigerian Primary Health Settings
- arxiv url: http://arxiv.org/abs/2605.23465v1
- Date: Fri, 22 May 2026 10:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.309597
- Title: IyàwóBench: A Benchmark for Evaluating Large Language Model Clinical Triage Accuracy on Undifferentiated Febrile Illness in Nigerian Primary Health Settings
- Title(参考訳): IyàwóBench:ナイジェリアのプライマリ・ヘルス・セッティングにおける未分化胎児病の大規模言語モデル臨床トリアージ精度評価のためのベンチマーク
- Authors: Anthonio Oladimeji Gabriel, Dimeji Abdulsobur Olawuyi, Oloruntoba Ajayi, Temiloluwa Aderemi,
- Abstract要約: ナイジェリアでは、未分化の胎児病がプライマリケアの外来訪問の主な原因となっている。
大規模言語モデル(LLM)の臨床トリアージ推論を評価するための検証済みのベンチマークは存在しない。
IywBench v1.0は8つの女性病カテゴリにまたがる200種類の合成臨床ヴィニネットのデータセットである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background. Undifferentiated febrile illness is the leading cause of primary care outpatient visits in Nigeria, yet no validated benchmark exists for evaluating large language model (LLM) clinical triage reasoning in West African primary health settings. Methods. We introduce IyàwóBench v1.0, a dataset of 200 synthetic clinical vignettes across eight febrile illness categories derived from statistical distributions of 1,200 real patient encounters at 19 primary health centres (PHCs) in Oyo State, Nigeria. Six LLMs were evaluated on structured triage classification across two metrics: triage accuracy and safety score. Results. All six models achieved 100% safety scores (95% CI: 96.4-100.0%), never downgrading a critical REFER NOW case to TREAT HERE. Triage accuracy varied substantially: Claude Sonnet (claude-sonnet-4-5) 67.5% (95% CI: 60.8-73.7%), Llama 4 Scout 59.5% (52.5-66.2%), Llama 3.3 70B 43.0% (36.2-50.0%), and Llama 3.1 8B 39.0% (32.4-45.9%). Two models demonstrated near-zero accuracy attributable to structured output non-compliance. Conclusions. Modern LLMs exhibit safe triage behaviour but vary substantially in structured clinical accuracy. Clinically engineered systems with embedded WHO guidelines outperform general-purpose models by up to 28.5 percentage points. IyàwóBench provides the first reproducible evaluation framework for LLM clinical decision support in West African primary care.
- Abstract(参考訳): 背景。
ナイジェリアにおける未分化性胎児病は、プライマリケアの外来訪問の主要な原因であるが、西アフリカのプライマリ・ヘルス・セッティングにおいて、大言語モデル(LLM)の臨床トリアージ推論を評価するための検証済みのベンチマークは存在しない。
メソッド。
IyàwóBench v1.0は、ナイジェリアのオヨ州にある19のプライマリ・ヘルス・センター(PHC)において、1200人の実際の患者が遭遇したという統計分布から得られた8つの女性病種にまたがる200の合成臨床ヴィニネットのデータセットである。
トリアージ分類では, トリアージ精度と安全性スコアの2つの指標で6つのLSMを評価した。
結果。
6つのモデルは全て100%の安全スコア(95%CI:96.4-100.0%)を達成し、致命的なREFER NOWのケースをTREAT HEREに格下げすることはなかった。
Claude Sonnet (Crude-sonnet-4-5) 67.5% (95% CI: 60.8-73.7%)、Llama 4 Scout 59.5% (52.5-66.2%)、Llama 3.3 70B 43.0% (36.2-50.0%)、Llama 3.1 8B 39.0% (32.4-45.9%)である。
2つのモデルが、構造化された出力非準拠に起因するほぼゼロの精度を示した。
結論。
現代のLSMは安全なトリアージ動作を示すが、かなり構造的な臨床精度が異なる。
WHOガイドラインを組み込んだ臨床工学的なシステムは、最大28.5ポイントの汎用モデルを上回っている。
IyàwóBenchは、西アフリカのプライマリケアにおけるLSM臨床決定支援のための最初の再現可能な評価フレームワークを提供する。
関連論文リスト
- Adversarial Fragility and Language Vulnerability in Clinical AI: A Systematic Audit of Diagnostic Collapse Under Imperceptible Perturbations and Cross-Lingual Drift in Low-Resource Healthcare Settings [0.0]
本研究は, 臨床用AIにおける2つの安全性の脆弱性について, 対向画像の脆弱性と言語間診断ドリフトの2つの脆弱性について, 初めて系統的二重検査を行ったものである。
COVID-QU-Ex胸部X線データセットを微調整したDenseNet121を用いて、診断精度が89.3%から62.0%に低下することを示した。
Llama3.1:8bおよびNatLAS(NLASAT)を標準英語、ナイジェリア・ピジン(ナイジャ)、ヨルバ・インフレクテッド・インフレクテッド・イングリッシュ(英語版)で紹介した。
論文 参考訳(メタデータ) (2026-05-16T13:33:47Z) - A Breast Vision Pathology Foundation Model for Real-world Clinical Utility [65.57568187389113]
a bfBRAVE, a breast-adaptive pathology foundation model developed and evaluation using a total resources of 101,638 breast wholeslide images。
臨床ワークフローにおけるBRAVEの実践的役割は、通常のAI支援による第2レビューから低リスクのケースを安全に排除すること、そしてさらなる評価のためのケースの優先順位付けなどである。
論文 参考訳(メタデータ) (2026-05-06T07:44:39Z) - Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - COPE: Chain-Of-Thought Prediction Engine for Open-Source Large Language Model Based Stroke Outcome Prediction from Clinical Notes [23.044580867637105]
CoT (Chain-of-Thought) Outcome Prediction Engine (COPE) は、構造化されていない臨床ノートから結果を予測するための推論強化された大規模言語モデルフレームワークである。
本研究は急性虚血性脳梗塞(AIS)464例と90日間のRanin Scale(mRS)スコアを比較検討した。
COPEは1.01 (95% CI 0.92-1.11), +/-1 の精度 74.4% (69.9, 78.8%), 正確な精度 32.8% (28.0, 37.6%) を達成した。
論文 参考訳(メタデータ) (2025-12-02T07:44:20Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Utilizing Machine Learning Models to Predict Acute Kidney Injury in Septic Patients from MIMIC-III Database [0.0]
セプシス(Sepsis)は、体が感染に対して正しく反応しない重篤な疾患である。
敗血症患者では、約50%が急性腎障害(AKI)を発症する。
敗血症患者の特徴に基づいてAKIを正確に予測できるモデルは早期発見と介入に不可欠である。
論文 参考訳(メタデータ) (2024-12-04T22:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。