論文の概要: Evaluating the Pre-Consultation Ability of LLMs using Diagnostic Guidelines
- arxiv url: http://arxiv.org/abs/2601.03627v1
- Date: Wed, 07 Jan 2026 06:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.138133
- Title: Evaluating the Pre-Consultation Ability of LLMs using Diagnostic Guidelines
- Title(参考訳): 診断ガイドラインを用いたLCMの前処理能力の評価
- Authors: Jean Seo, Gibaeg Kim, Kihun Shin, Seungseop Lim, Hyunkyung Lee, Wooseok Han, Jongwon Lee, Eunho Yang,
- Abstract要約: LLMの前処理能力を評価するために設計されたベンチマークデータセットとフレームワークであるEPAGを紹介する。
成熟したタスク固有のデータセットで微調整された小さなオープンソースモデルは、前処理でフロンティアLSMより優れている。
以上の結果から,HPIの増加が診断性能の向上につながるとは限らないことが判明した。
- 参考スコア(独自算出の注目度): 31.28422553778395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EPAG, a benchmark dataset and framework designed for Evaluating the Pre-consultation Ability of LLMs using diagnostic Guidelines. LLMs are evaluated directly through HPI-diagnostic guideline comparison and indirectly through disease diagnosis. In our experiments, we observe that small open-source models fine-tuned with a well-curated, task-specific dataset can outperform frontier LLMs in pre-consultation. Additionally, we find that increased amount of HPI (History of Present Illness) does not necessarily lead to improved diagnostic performance. Further experiments reveal that the language of pre-consultation influences the characteristics of the dialogue. By open-sourcing our dataset and evaluation pipeline on https://github.com/seemdog/EPAG, we aim to contribute to the evaluation and further development of LLM applications in real-world clinical settings.
- Abstract(参考訳): 診断ガイドラインを用いてLCMの前処理能力を評価するためのベンチマークデータセットとフレームワークであるEPAGを紹介する。
LLMはHPI-診断ガイドライン比較により直接評価され、間接的に疾患診断によって評価される。
実験では, 高精度なタスク特化データセットで微調整された小さなオープンソースモデルが, 事前処理においてフロンティアLLMよりも優れていることを示した。
また,HPIの増加は診断能力の向上に必ずしも寄与しないことが明らかとなった。
さらなる実験により、事前解釈の言語が対話の特徴に影響を及ぼすことが明らかとなった。
我々は、データセットと評価パイプラインをhttps://github.com/seemdog/EPAGでオープンソース化することで、実世界の臨床環境におけるLCMアプリケーションの評価と開発に貢献することを目指している。
関連論文リスト
- Building a Silver-Standard Dataset from NICE Guidelines for Clinical LLMs [5.081034062303304]
本研究は,複数の診断にまたがる公開ガイドラインから得られた検証データセットを提案する。
データセットはGPTの助けを借りて作成され、現実的な患者のシナリオと臨床的な質問を含む。
論文 参考訳(メタデータ) (2025-11-02T19:13:37Z) - Cohort Discovery: A Survey on LLM-Assisted Clinical Trial Recruitment [21.800829039344876]
我々は,臨床治験採用における臨床患者マッチングの課題を初めて分析し,新たなLCMベースのアプローチを文脈的に分析する。
既存のベンチマーク、アプローチ、評価フレームワークについて批判的に検討する。
論文 参考訳(メタデータ) (2025-06-18T09:32:16Z) - Improving Interactive Diagnostic Ability of a Large Language Model Agent Through Clinical Experience Learning [17.647875658030006]
本研究では,性能劣化現象の根底にあるメカニズムについて検討する。
我々は,中国とアメリカの医療施設から350万件以上の電子医療記録を活用する,PPME ( Plug-and-play) LLM エージェントを開発した。
本研究は, 初期疾患の診断・調査のための専門モデルを統合し, 指導的, 強化的学習技術を用いて訓練した。
論文 参考訳(メタデータ) (2025-02-24T06:24:20Z) - Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。
患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文 参考訳(メタデータ) (2023-09-08T18:44:47Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。