論文の概要: Expert-Guided Prompting and Retrieval-Augmented Generation for Emergency Medical Service Question Answering
- arxiv url: http://arxiv.org/abs/2511.10900v2
- Date: Tue, 18 Nov 2025 21:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.077277
- Title: Expert-Guided Prompting and Retrieval-Augmented Generation for Emergency Medical Service Question Answering
- Title(参考訳): 救急医療サービス質問応答のためのエキスパートガイド型プロンプトと検索型ジェネレーション
- Authors: Xueren Ge, Sahil Murtaza, Anthony Cortez, Homa Alemzadeh,
- Abstract要約: 本稿では,特定の臨床対象領域と認定レベルに基づいてチェーン・オブ・シント推論を規定するプロンプト戦略であるExpert-CoTを紹介する。
また,対象領域に整合した文書や実世界の患者データに応答する検索拡張型生成パイプラインであるExpertRAGを導入する。
- 参考スコア(独自算出の注目度): 2.974889834426777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown promise in medical question answering, yet they often overlook the domain-specific expertise that professionals depend on, such as the clinical subject areas (e.g., trauma, airway) and the certification level (e.g., EMT, Paramedic). Existing approaches typically apply general-purpose prompting or retrieval strategies without leveraging this structured context, limiting performance in high-stakes settings. We address this gap with EMSQA, an 24.3K-question multiple-choice dataset spanning 10 clinical subject areas and 4 certification levels, accompanied by curated, subject area-aligned knowledge bases (40K documents and 2M tokens). Building on EMSQA, we introduce (i) Expert-CoT, a prompting strategy that conditions chain-of-thought (CoT) reasoning on specific clinical subject area and certification level, and (ii) ExpertRAG, a retrieval-augmented generation pipeline that grounds responses in subject area-aligned documents and real-world patient data. Experiments on 4 LLMs show that Expert-CoT improves up to 2.05% over vanilla CoT prompting. Additionally, combining Expert-CoT with ExpertRAG yields up to a 4.59% accuracy gain over standard RAG baselines. Notably, the 32B expertise-augmented LLMs pass all the computer-adaptive EMS certification simulation exams.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医学的な疑問に答える上で有望であるが、専門職が依存する分野固有の専門知識(例えば、外傷、気道)や認定レベル(例えば、EMT、パラメディック)を見落としていることが多い。
既存のアプローチは通常、この構造化されたコンテキストを活用することなく汎用的なプロンプトや検索戦略を適用し、ハイテイク環境での性能を制限する。
EMSQAは,10の臨床対象領域と4の認定レベルにまたがる24.3Kの多重選択データセットであり,40Kの文書と2Mのトークンが混在している。
EMSQAに基づく構築について紹介する
i)専門家-CoTは、特定の臨床対象領域と認定レベルに基づいて、チェーン・オブ・シント(CoT)の推論を規定する促進戦略であり、
(ii)ExpertRAGは,対象領域に整合した文書と実世界の患者データに応答を基盤とする検索拡張生成パイプラインである。
4つのLCMの実験では、Expert-CoTはバニラCoTのプロンプトよりも最大2.05%改善している。
さらに、Expert-CoTとExpertRAGを組み合わせることで、標準的なRAGベースラインよりも4.59%の精度が向上する。
特筆すべきは、32Bの専門性強化 LLM が、コンピュータ適応型 EMS 認証シミュレーション試験を全てパスすることである。
関連論文リスト
- OpenAIs HealthBench in Action: Evaluating an LLM-Based Medical Assistant on Realistic Clinical Queries [2.2807344448218507]
われわれはHealthBenchを用いてRAGをベースとした臨床サポートアシスタントDR.INFOを評価した。
1000の挑戦的な例のハードサブセットでは、DR.INFOはHealthBenchスコア0.51を達成している。
同様のエージェントRAGアシスタントに対する100サンプルの別評価では、ヘルスベンチスコア0.54のパフォーマンスリードを維持している。
論文 参考訳(メタデータ) (2025-08-29T09:51:41Z) - MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.83722922095852]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。
MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
ベンチマークで18の先行モデルを評価した。
論文 参考訳(メタデータ) (2025-01-30T14:07:56Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。