論文の概要: Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper
- arxiv url: http://arxiv.org/abs/2507.14615v1
- Date: Sat, 19 Jul 2025 13:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.971054
- Title: Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper
- Title(参考訳): ケニアのプライマリケアにおける文脈モデル検査のための検索型臨床ベンチマーク : 方法論的論文
- Authors: Fred Mutisya, Shikoh Gitau, Christine Syovata, Diana Oigara, Ibrahim Matende, Muna Aden, Munira Ali, Ryan Nyotu, Diana Marion, Job Nyangena, Nasubo Ongoma, Keith Mbae, Elizabeth Wamicha, Eric Mibuari, Jean Philbert Nsengemana, Talkmore Chidede,
- Abstract要約: 大規模言語モデル(LLM)は、低リソース環境での医療アクセスを改善するという約束を持っているが、アフリカのプライマリケアにおけるそれらの効果は、まだ探索されていない。
ケニアのレベル2と3の臨床ケアに焦点を当てたベンチマークデータセットと評価フレームワークを作成するための方法論を提案する。
本手法は,ケニアの全国ガイドラインに臨床質問を根拠として,地域標準との整合性を確保するためにRAG (Regegration augmented generation) を用いている。
- 参考スコア(独自算出の注目度): 0.609562679184219
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models(LLMs) hold promise for improving healthcare access in low-resource settings, but their effectiveness in African primary care remains underexplored. We present a methodology for creating a benchmark dataset and evaluation framework focused on Kenyan Level 2 and 3 clinical care. Our approach uses retrieval augmented generation (RAG) to ground clinical questions in Kenya's national guidelines, ensuring alignment with local standards. These guidelines were digitized, chunked, and indexed for semantic retrieval. Gemini Flash 2.0 Lite was then prompted with guideline excerpts to generate realistic clinical scenarios, multiple-choice questions, and rationale based answers in English and Swahili. Kenyan physicians co-created and refined the dataset, and a blinded expert review process ensured clinical accuracy, clarity, and cultural appropriateness. The resulting Alama Health QA dataset includes thousands of regulator-aligned question answer pairs across common outpatient conditions. Beyond accuracy, we introduce evaluation metrics that test clinical reasoning, safety, and adaptability such as rare case detection (Needle in the Haystack), stepwise logic (Decision Points), and contextual adaptability. Initial results reveal significant performance gaps when LLMs are applied to localized scenarios, consistent with findings that LLM accuracy is lower on African medical content than on US-based benchmarks. This work offers a replicable model for guideline-driven, dynamic benchmarking to support safe AI deployment in African health systems.
- Abstract(参考訳): LLM(Large Language Models)は、低リソース環境での医療アクセスを改善するという約束を持っているが、アフリカのプライマリケアにおけるそれらの効果はいまだに調査されていない。
ケニアのレベル2と3の臨床ケアに焦点を当てたベンチマークデータセットと評価フレームワークを作成するための方法論を提案する。
本手法は,ケニアの全国ガイドラインに臨床的疑問を基礎として,地域標準との整合性を確保するために,検索強化(RAG)を用いている。
これらのガイドラインは、セマンティック検索のためにデジタル化され、チャンクされ、インデックス化された。
Gemini Flash 2.0 Liteは、現実的な臨床シナリオ、複数選択の質問、および英語とスワヒリ語での合理性に基づく回答を生成するためのガイドラインの抜粋を駆り立てられた。
ケニアの医師はデータセットを共同で作成、洗練し、ブラインドされた専門家レビュープロセスにより、臨床の正確さ、明瞭さ、文化的適切さが保証された。
結果として得られたAlama Health QAデータセットには、一般的な外来の条件にまたがる何千もの規制に照らされた質問応答ペアが含まれている。
本稿では,臨床推論,安全性,適応性(HaystackのNeedle),ステップワイズ論理(Decision Points),コンテキスト適応性などの評価指標を紹介する。
最初の結果から, LLMが局所的なシナリオに適用された場合, LLMの精度がアメリカのベンチマークよりもアフリカの医療内容で低いという結果に一致して, 顕著な性能差が示された。
この作業は、アフリカの健康システムにおける安全なAIデプロイメントをサポートするために、ガイドライン駆動の動的ベンチマークのためのレプリカモデルを提供する。
関連論文リスト
- Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - Mind the Gap: Evaluating the Representativeness of Quantitative Medical Language Reasoning LLM Benchmarks for African Disease Burdens [0.609562679184219]
既存のLCMベンチマークでは、高い所得設定による検査シラビと疾患プロファイルを主に反映している。
Alama Health QAはケニアのクリニカル・クリニカル・プラクティス・ガイドラインに固定された検索拡張生成フレームワークを用いて開発された。
アラマは関連性およびガイドラインアライメントで最高であり、PubMedQAは臨床的有用性で最低であった。
論文 参考訳(メタデータ) (2025-07-22T08:05:30Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Zero-Shot Clinical Trial Patient Matching with LLMs [40.31971412825736]
大規模言語モデル(LLM)は、自動スクリーニングの有望なソリューションを提供する。
我々は,患者の診療歴を非構造的臨床テキストとして考慮し,その患者が包括的基準を満たしているかどうかを評価するLCMベースのシステムを構築した。
提案システムは,n2c2 2018コホート選択ベンチマークにおいて,最先端のスコアを達成している。
論文 参考訳(メタデータ) (2024-02-05T00:06:08Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。