論文の概要: Dialogue to Question Generation for Evidence-based Medical Guideline Agent Development
- arxiv url: http://arxiv.org/abs/2603.23937v1
- Date: Wed, 25 Mar 2026 04:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.135959
- Title: Dialogue to Question Generation for Evidence-based Medical Guideline Agent Development
- Title(参考訳): Evidence-based Medical Guideline Agent開発のための質問生成のための対話
- Authors: Zongliang Ji, Ziyang Zhang, Xincheng Tan, Matthew Thompson, Anna Goldenberg, Carl Yang, Rahul G. Krishnan, Fan Zhang,
- Abstract要約: EBM(エビデンス・ベース・メディカル)は、高品質な医療の中心であるが、迅速なプライマリ・ケア・セッティングでは実装が困難である。
本研究では,大規模言語モデル(LLM)を,医師と患者との出会いにおいて,対象としたエビデンスに基づく質問を表面化する環境アシスタントとして活用する可能性について検討した。
- 参考スコア(独自算出の注目度): 36.38151630332192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evidence-based medicine (EBM) is central to high-quality care, but remains difficult to implement in fast-paced primary care settings. Physicians face short consultations, increasing patient loads, and lengthy guideline documents that are impractical to consult in real time. To address this gap, we investigate the feasibility of using large language models (LLMs) as ambient assistants that surface targeted, evidence-based questions during physician-patient encounters. Our study focuses on question generation rather than question answering, with the aim of scaffolding physician reasoning and integrating guideline-based practice into brief consultations. We implemented two prompting strategies, a zero-shot baseline and a multi-stage reasoning variant, using Gemini 2.5 as the backbone model. We evaluated on a benchmark of 80 de-identified transcripts from real clinical encounters, with six experienced physicians contributing over 90 hours of structured review. Results indicate that while general-purpose LLMs are not yet fully reliable, they can produce clinically meaningful and guideline-relevant questions, suggesting significant potential to reduce cognitive burden and make EBM more actionable at the point of care.
- Abstract(参考訳): EBM(エビデンス・ベース・メディカル)は、高品質な医療の中心であるが、迅速なプライマリ・ケア・セッティングでは実装が困難である。
医師は、短い相談、患者の負担の増加、そしてリアルタイムに相談できない長いガイドライン文書に直面している。
このギャップに対処するために, 医師と患者との出会いにおいて, 対象としたエビデンスに基づく質問を提示する環境アシスタントとして, 大規模言語モデル(LLM)を使用することの可能性を検討する。
本研究は,医師の推論を足場化し,ガイドラインに基づく実践を簡単な相談に組み込むことを目的として,質問応答よりも質問生成に焦点を当てた。
バックボーンモデルとしてGemini 2.5を用いて,ゼロショットベースラインとマルチステージ推論の2つのプロンプト戦略を実装した。
臨床経験者6名を対象に,90時間以上の構造化レビューを行った。
その結果, 汎用LSMはまだ十分に信頼できないものの, 臨床的に有意でガイドラインに関連のある疑問を生じさせ, 認知的負担を軽減し, EBMをより実用的なものにする可能性が示唆された。
関連論文リスト
- MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - The Illusion of Clinical Reasoning: A Benchmark Reveals the Pervasive Gap in Vision-Language Models for Clinical Competency [38.68458713626548]
現在のベンチマークでは、現実の患者のケアに不可欠な統合されたマルチモーダルな推論を捉えられていない。
このベンチマークは、臨床推論経路を反映する7つのタスクにわたるモデルを評価する。
現在の人工知能モデルは、複雑なマルチモーダル推論にはまだ臨床的に適していない。
論文 参考訳(メタデータ) (2025-12-25T03:33:22Z) - Orchestrator Multi-Agent Clinical Decision Support System for Secondary Headache Diagnosis in Primary Care [13.520457515792534]
本稿では,オーケストレータ-スペシャリストアーキテクチャ上に構築された多言語モデル(LLM)に基づく多言語臨床意思決定支援システムを提案する。
このシステムは、診断を7つのドメイン特化エージェントに分解し、それぞれが構造化されエビデンスに基づく理論的根拠を生成する。
90例の2次頭痛患者を用いてマルチエージェントシステムの評価を行い,その成績を単一LLMベースラインと比較した。
論文 参考訳(メタデータ) (2025-12-03T19:26:12Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering [1.0262304700896199]
我々は,100人のメンタルヘルス専門家による大規模ベンチマークであるCounselBenchを紹介し,大規模言語モデル(LLM)の評価とストレステストを行う。
最初のコンポーネントであるCounselBench-EVALは、公開フォーラムCounselChatの患者に対する質問に対して、GPT-4、LLaMA 3、Gemini、およびヒトセラピストから2000の専門家による回答の評価を含んでいる。
専門家による評価では、LLMはいくつかの次元において高いスコアを得る一方で、非建設的フィードバック、過度な一般化、限定されたパーソナライゼーションや関連性など、繰り返し発生する問題も示している。
論文 参考訳(メタデータ) (2025-06-10T08:53:06Z) - Towards Conversational AI for Disease Management [29.189384095061722]
Articulate Medical Intelligence Explorer (AMIE) は、臨床管理と対話のために最適化されたエージェントシステムである。
AMIEは、専門医が評価する管理的推論において、PCPに非優位である。
AMIEの評価における強いパフォーマンスは、疾患管理のツールとしての対話型AIへの重要な一歩である。
論文 参考訳(メタデータ) (2025-03-08T05:48:58Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。