論文の概要: HIVMedQA: Benchmarking large language models for HIV medical decision support
- arxiv url: http://arxiv.org/abs/2507.18143v2
- Date: Fri, 25 Jul 2025 06:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.235299
- Title: HIVMedQA: Benchmarking large language models for HIV medical decision support
- Title(参考訳): HIVMedQA:HIV医療決定のための大規模言語モデルのベンチマーク
- Authors: Gonzalo Cardenal-Antolin, Jacques Fellay, Bashkim Jaha, Roger Kouyos, Niko Beerenwinkel, Diane Duroux,
- Abstract要約: HIV管理は、その複雑さのために魅力的なユースケースである。
大規模言語モデル(LLM)を臨床実践に統合すると、正確性、潜在的な害、臨床受理に関する懸念が高まる。
本研究は、HIV治療におけるLSMの現在の能力を評価し、その強度と限界を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are emerging as valuable tools to support clinicians in routine decision-making. HIV management is a compelling use case due to its complexity, including diverse treatment options, comorbidities, and adherence challenges. However, integrating LLMs into clinical practice raises concerns about accuracy, potential harm, and clinician acceptance. Despite their promise, AI applications in HIV care remain underexplored, and LLM benchmarking studies are scarce. This study evaluates the current capabilities of LLMs in HIV management, highlighting their strengths and limitations. We introduce HIVMedQA, a benchmark designed to assess open-ended medical question answering in HIV care. The dataset consists of curated, clinically relevant questions developed with input from an infectious disease physician. We evaluated seven general-purpose and three medically specialized LLMs, applying prompt engineering to enhance performance. Our evaluation framework incorporates both lexical similarity and an LLM-as-a-judge approach, extended to better reflect clinical relevance. We assessed performance across key dimensions: question comprehension, reasoning, knowledge recall, bias, potential harm, and factual accuracy. Results show that Gemini 2.5 Pro consistently outperformed other models across most dimensions. Notably, two of the top three models were proprietary. Performance declined as question complexity increased. Medically fine-tuned models did not always outperform general-purpose ones, and larger model size was not a reliable predictor of performance. Reasoning and comprehension were more challenging than factual recall, and cognitive biases such as recency and status quo were observed. These findings underscore the need for targeted development and evaluation to ensure safe, effective LLM integration in clinical care.
- Abstract(参考訳): 大きな言語モデル(LLM)は、日常的な意思決定において臨床医を支援する貴重なツールとして現れています。
HIV管理は、多彩な治療オプション、共生性、順応性の課題を含む、その複雑さのために魅力的なユースケースである。
しかし、LSMを臨床実践に組み込むことは、正確性、潜在的な害、臨床医の受け入れに関する懸念を引き起こす。
その約束にもかかわらず、HIVケアにおけるAI応用は未調査のままであり、LSMベンチマーク研究は少ない。
本研究は、HIV管理におけるLSMの現在の能力を評価し、その強度と限界を強調した。
HIVMedQA(HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQ
このデータセットは、感染症の医師からの入力によって開発された、治療された臨床的に関連のある質問から成り立っている。
7つの汎用LLMと3つの医学専門LLMを評価し,性能向上のために即時工学を適用した。
LLM-as-a-judge 法とLLM-as-a-judge 法を併用し,臨床関連性を改善した。
我々は,質問理解,推論,知識のリコール,バイアス,潜在的な害,事実的正確性といった,重要な側面にわたるパフォーマンスを評価した。
その結果、Gemini 2.5 Proは、ほとんどの次元で他のモデルよりも一貫して優れていた。
特に上位3機種のうち2機種はプロプライエタリだった。
質問の複雑さが増すにつれて、パフォーマンスは低下した。
医学的に微調整されたモデルは必ずしも汎用モデルよりも優れておらず、より大きなモデルサイズは信頼性の高い性能予測器ではなかった。
推論や理解は事実的リコールよりも困難であり, 再発やステータスクオといった認知バイアスが観察された。
これらの知見は、臨床医療における安全かつ効果的なLCM統合を保証するために、ターゲット開発と評価の必要性を浮き彫りにした。
関連論文リスト
- Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Matching Patients to Clinical Trials with Large Language Models [29.265158319106604]
本稿では,大規模言語モデルを用いたゼロショット患者間マッチングのためのエンドツーエンドフレームワークTrialGPTを紹介する。
TrialGPTは3つのモジュールから構成されており、まず大規模フィルタリングを行い、候補トライアル(TrialGPT-Retrieval)を検索し、次に基準レベルの患者資格(TrialGPT-Matching)を予測し、最終的にトライアルレベルのスコア(TrialGPT-Ranking)を生成する。
論文 参考訳(メタデータ) (2023-07-27T17:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。