論文の概要: Automatic Evaluation of Healthcare LLMs Beyond Question-Answering
- arxiv url: http://arxiv.org/abs/2502.06666v1
- Date: Mon, 10 Feb 2025 16:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:19.520446
- Title: Automatic Evaluation of Healthcare LLMs Beyond Question-Answering
- Title(参考訳): 質問応答を超越した医療用LDMの自動評価
- Authors: Anna Arias-Duart, Pablo Agustin Martin-Torres, Daniel Hinjos, Pablo Bernabeu-Perez, Lucia Urcelay Ganzabal, Marta Gonzalez Mallo, Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Sergio Alvarez-Napagao, Dario Garcia-Gasulla,
- Abstract要約: オープンとクローズなベンチマークとメトリクスの相関について検討する。
衛生チェックの更新として、オープン版とクローズド版の両方を備えた新しい医療ベンチマーク、CareQAをリリースする。
本稿では,その制約を緩和するため,オープンエンド評価のための新しい指標であるRelaxed Perplexityを提案する。
- 参考スコア(独自算出の注目度): 0.42131793931438133
- License:
- Abstract: Current Large Language Models (LLMs) benchmarks are often based on open-ended or close-ended QA evaluations, avoiding the requirement of human labor. Close-ended measurements evaluate the factuality of responses but lack expressiveness. Open-ended capture the model's capacity to produce discourse responses but are harder to assess for correctness. These two approaches are commonly used, either independently or together, though their relationship remains poorly understood. This work is focused on the healthcare domain, where both factuality and discourse matter greatly. It introduces a comprehensive, multi-axis suite for healthcare LLM evaluation, exploring correlations between open and close benchmarks and metrics. Findings include blind spots and overlaps in current methodologies. As an updated sanity check, we release a new medical benchmark--CareQA--, with both open and closed variants. Finally, we propose a novel metric for open-ended evaluations --Relaxed Perplexity-- to mitigate the identified limitations.
- Abstract(参考訳): 現在のLLM(Large Language Models)ベンチマークは、人的労働の要求を避けるために、しばしばオープンエンドまたはクローズエンドのQA評価に基づいている。
クローズドな測定は反応の事実性を評価するが、表現力は欠如している。
オープンエンドは、談話応答を生成するためのモデルの能力をキャプチャするが、正確性を評価することは困難である。
これらの2つのアプローチは、独立しても一緒にも、一般的に使われているが、それらの関係はよく分かっていない。
この研究は、事実と談話の両方が大きな意味を持つ医療分野に焦点を当てている。
医療用LLM評価のための包括的で多軸のスイートを導入し、オープンベンチマークとクローズベンチマークとメトリクスの相関について検討している。
発見には、現在の方法論における盲点と重複が含まれる。
衛生チェックの更新として、オープン版とクローズド版の両方を備えた新しい医療ベンチマーク-CareQA-をリリースする。
最後に、特定された制限を緩和するために、オープンエンド評価のための新しい指標 -- 緩和パープレクシティ(Relaxed Perplexity) -- を提案する。
関連論文リスト
- A Framework for Evaluating LLMs Under Task Indeterminacy [49.298107503257036]
大規模言語モデル(LLM)の評価は、評価コーパスの各項目に対して単一の正しい応答(ゴールドラベル)があると仮定することが多い。
タスク不確定性の下でLLMを評価するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2024-11-21T00:15:44Z) - A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如
既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。
本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:54:38Z) - Boosting Healthcare LLMs Through Retrieved Context [0.6144680854063939]
本研究では,医療領域におけるコンテキスト検索手法の境界について検討する。
以上の結果から,LLMが確立した医療ベンチマークにおいて,最大規模のプライベートソリューションに匹敵するパフォーマンスを達成できることが判明した。
特に,より信頼性の高いオープンエンド回答の生成を改善するために,OpenMedPromptを提案する。
論文 参考訳(メタデータ) (2024-09-23T15:33:38Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Evaluating Open-Domain Question Answering in the Era of Large Language
Models [9.144650595481377]
オープンドメイン質問応答(QA)のデファクト評価手法としての語彙マッチング
QAのための大規模言語モデル(LLM)の最近の成功は、候補解が長くなるにつれて語彙マッチングの失敗を増大させる。
正確な評価がなければ、オープンドメインQAの真の進歩は分かっていない。
論文 参考訳(メタデータ) (2023-05-11T17:14:33Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - OpenAUC: Towards AUC-Oriented Open-Set Recognition [151.5072746015253]
従来の機械学習は、トレーニングとテストセットが同じラベル空間を共有するという密接な前提に従っている。
Open-Set Recognition (OSR) は、クローズセットサンプルとオープンセットサンプルの両方で正確な予測を行うことを目的としている。
これらの問題を解決するために,OpenAUCという新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2022-10-22T08:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。