Fugu-MT 論文翻訳(概要): HIVMedQA: Benchmarking large language models for HIV medical decision support

論文の概要: HIVMedQA: Benchmarking large language models for HIV medical decision support

arxiv url: http://arxiv.org/abs/2507.18143v2
Date: Fri, 25 Jul 2025 06:40:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-28 12:12:30.235299
Title: HIVMedQA: Benchmarking large language models for HIV medical decision support
Title（参考訳）: HIVMedQA:HIV医療決定のための大規模言語モデルのベンチマーク
Authors: Gonzalo Cardenal-Antolin, Jacques Fellay, Bashkim Jaha, Roger Kouyos, Niko Beerenwinkel, Diane Duroux,
Abstract要約: HIV管理は、その複雑さのために魅力的なユースケースである。大規模言語モデル(LLM)を臨床実践に統合すると、正確性、潜在的な害、臨床受理に関する懸念が高まる。本研究は、HIV治療におけるLSMの現在の能力を評価し、その強度と限界を強調した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are emerging as valuable tools to support clinicians in routine decision-making. HIV management is a compelling use case due to its complexity, including diverse treatment options, comorbidities, and adherence challenges. However, integrating LLMs into clinical practice raises concerns about accuracy, potential harm, and clinician acceptance. Despite their promise, AI applications in HIV care remain underexplored, and LLM benchmarking studies are scarce. This study evaluates the current capabilities of LLMs in HIV management, highlighting their strengths and limitations. We introduce HIVMedQA, a benchmark designed to assess open-ended medical question answering in HIV care. The dataset consists of curated, clinically relevant questions developed with input from an infectious disease physician. We evaluated seven general-purpose and three medically specialized LLMs, applying prompt engineering to enhance performance. Our evaluation framework incorporates both lexical similarity and an LLM-as-a-judge approach, extended to better reflect clinical relevance. We assessed performance across key dimensions: question comprehension, reasoning, knowledge recall, bias, potential harm, and factual accuracy. Results show that Gemini 2.5 Pro consistently outperformed other models across most dimensions. Notably, two of the top three models were proprietary. Performance declined as question complexity increased. Medically fine-tuned models did not always outperform general-purpose ones, and larger model size was not a reliable predictor of performance. Reasoning and comprehension were more challenging than factual recall, and cognitive biases such as recency and status quo were observed. These findings underscore the need for targeted development and evaluation to ensure safe, effective LLM integration in clinical care.
Abstract（参考訳）: 大きな言語モデル(LLM)は、日常的な意思決定において臨床医を支援する貴重なツールとして現れています。 HIV管理は、多彩な治療オプション、共生性、順応性の課題を含む、その複雑さのために魅力的なユースケースである。しかし、LSMを臨床実践に組み込むことは、正確性、潜在的な害、臨床医の受け入れに関する懸念を引き起こす。その約束にもかかわらず、HIVケアにおけるAI応用は未調査のままであり、LSMベンチマーク研究は少ない。本研究は、HIV管理におけるLSMの現在の能力を評価し、その強度と限界を強調した。 HIVMedQA(HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQA, HIVMedQ このデータセットは、感染症の医師からの入力によって開発された、治療された臨床的に関連のある質問から成り立っている。 7つの汎用LLMと3つの医学専門LLMを評価し,性能向上のために即時工学を適用した。 LLM-as-a-judge 法とLLM-as-a-judge 法を併用し,臨床関連性を改善した。我々は,質問理解,推論,知識のリコール,バイアス,潜在的な害,事実的正確性といった,重要な側面にわたるパフォーマンスを評価した。その結果、Gemini 2.5 Proは、ほとんどの次元で他のモデルよりも一貫して優れていた。特に上位3機種のうち2機種はプロプライエタリだった。質問の複雑さが増すにつれて、パフォーマンスは低下した。医学的に微調整されたモデルは必ずしも汎用モデルよりも優れておらず、より大きなモデルサイズは信頼性の高い性能予測器ではなかった。推論や理解は事実的リコールよりも困難であり, 再発やステータスクオといった認知バイアスが観察された。これらの知見は、臨床医療における安全かつ効果的なLCM統合を保証するために、ターゲット開発と評価の必要性を浮き彫りにした。

関連論文リスト

Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文参考訳（メタデータ） (2024-09-11T14:44:51Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。 GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文参考訳（メタデータ） (2024-01-24T16:52:37Z)
Matching Patients to Clinical Trials with Large Language Models [29.265158319106604]
本稿では,大規模言語モデルを用いたゼロショット患者間マッチングのためのエンドツーエンドフレームワークTrialGPTを紹介する。 TrialGPTは3つのモジュールから構成されており、まず大規模フィルタリングを行い、候補トライアル(TrialGPT-Retrieval)を検索し、次に基準レベルの患者資格(TrialGPT-Matching)を予測し、最終的にトライアルレベルのスコア(TrialGPT-Ranking)を生成する。
論文参考訳（メタデータ） (2023-07-27T17:56:56Z)
Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文参考訳（メタデータ） (2023-07-10T21:28:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。