論文の概要: Automated Evaluation can Distinguish the Good and Bad AI Responses to Patient Questions about Hospitalization
- arxiv url: http://arxiv.org/abs/2510.00436v1
- Date: Wed, 01 Oct 2025 02:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.336004
- Title: Automated Evaluation can Distinguish the Good and Bad AI Responses to Patient Questions about Hospitalization
- Title(参考訳): 入院に関する患者の質問に対するAI反応の良質と悪質を区別できる自動評価
- Authors: Sarvesh Soni, Dina Demner-Fushman,
- Abstract要約: AIレスポンスを評価するための現在のゴールドスタンダードは、労働集約的で遅い。
評価手法に関する大規模な体系的研究を行った。
この結果は,AIシステムの比較評価を,慎重に設計した自動評価が拡張可能であることを示唆している。
- 参考スコア(独自算出の注目度): 8.450904497835262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated approaches to answer patient-posed health questions are rising, but selecting among systems requires reliable evaluation. The current gold standard for evaluating the free-text artificial intelligence (AI) responses--human expert review--is labor-intensive and slow, limiting scalability. Automated metrics are promising yet variably aligned with human judgments and often context-dependent. To address the feasibility of automating the evaluation of AI responses to hospitalization-related questions posed by patients, we conducted a large systematic study of evaluation approaches. Across 100 patient cases, we collected responses from 28 AI systems (2800 total) and assessed them along three dimensions: whether a system response (1) answers the question, (2) appropriately uses clinical note evidence, and (3) uses general medical knowledge. Using clinician-authored reference answers to anchor metrics, automated rankings closely matched expert ratings. Our findings suggest that carefully designed automated evaluation can scale comparative assessment of AI systems and support patient-clinician communication.
- Abstract(参考訳): 患者が提示する健康問題に答えるための自動アプローチが増えているが、システム間での選択には信頼性の高い評価が必要である。
フリーテキスト人工知能(AI)のレスポンスを評価するための現在のゴールドスタンダード - 人間の専門家によるレビュー - は、労働集約的で遅く、スケーラビリティが制限されている。
自動化されたメトリクスは、人間の判断と可変的に一致し、しばしば文脈に依存します。
患者が提示する入院関連質問に対するAI反応評価の自動化の実現可能性を検討するため,評価手法の体系的研究を行った。
患者100名を対象に,28のAIシステム(2800件)から回答を収集し,システム応答(1)が疑問に答えるかどうか,(2)臨床ノートの証拠を適切に利用し,(3)一般の医療知識を用いて3次元で評価した。
臨床医が作成した基準回答を使ってメトリクスをアンカーし、自動化されたランキングは専門家のレーティングと密接に一致した。
この結果から,慎重に設計した自動評価は,AIシステムの比較評価をスケールし,患者と臨床のコミュニケーションを支援することが示唆された。
関連論文リスト
- AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems [0.0]
大言語モデル (LLMs) は, 臨床質問応答において有意な潜在性を示した。
RAGは、モデル応答の事実的正確性を保証するための主要なアプローチとして現れています。
現在のRAG自動測定は、臨床および会話のユースケースでは不十分である。
論文 参考訳(メタデータ) (2025-01-14T15:46:39Z) - Towards Leveraging Large Language Models for Automated Medical Q&A Evaluation [2.7379431425414693]
本稿では,大規模言語モデル(LLM)を用いて,Q&Aシステムにおける応答評価を自動化する可能性について検討する。
論文 参考訳(メタデータ) (2024-09-03T14:38:29Z) - Can Generative AI Support Patients' & Caregivers' Informational Needs? Towards Task-Centric Evaluation Of AI Systems [0.7124736158080937]
人間の理解と意思決定を中心とする評価パラダイムを開発する。
具体的なタスクにおける人を支援するための生成AIシステムの有用性について検討する。
我々は,放射線技師の反応に対して,最先端の2つの生成AIシステムを評価する。
論文 参考訳(メタデータ) (2024-01-31T23:24:37Z) - Evaluation of AI Chatbots for Patient-Specific EHR Questions [5.195779994399724]
当社では、ChatGPT(バージョン3.5と4)、Google Bard、Claudeという、LLMベースのシステムをいくつか使用しています。
患者固有の質問に対する5点類似尺度を用いて,各モデルが生成した回答の正確性,妥当性,包括性,コヒーレンスを評価した。
論文 参考訳(メタデータ) (2023-06-05T02:52:54Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Medical Question Understanding and Answering with Knowledge Grounding
and Semantic Self-Supervision [53.692793122749414]
本稿では,知識基盤とセマンティック・セルフスーパービジョンを備えた医療質問理解・回答システムについて紹介する。
我々のシステムは、まず、教師付き要約損失を用いて、長い医学的、ユーザによる質問を要約するパイプラインである。
システムはまず、信頼された医療知識ベースから要約されたユーザ質問とFAQとをマッチングし、対応する回答文書から一定の数の関連文を検索する。
論文 参考訳(メタデータ) (2022-09-30T08:20:32Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - Opportunities of a Machine Learning-based Decision Support System for
Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。
現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。
我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文 参考訳(メタデータ) (2020-02-27T17:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。