Fugu-MT 論文翻訳(概要): Automatic Evaluation of Healthcare LLMs Beyond Question-Answering

論文の概要: Automatic Evaluation of Healthcare LLMs Beyond Question-Answering

arxiv url: http://arxiv.org/abs/2502.06666v1
Date: Mon, 10 Feb 2025 16:52:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.54927
Title: Automatic Evaluation of Healthcare LLMs Beyond Question-Answering
Title（参考訳）: 質問応答を超越した医療用LDMの自動評価
Authors: Anna Arias-Duart, Pablo Agustin Martin-Torres, Daniel Hinjos, Pablo Bernabeu-Perez, Lucia Urcelay Ganzabal, Marta Gonzalez Mallo, Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Sergio Alvarez-Napagao, Dario Garcia-Gasulla,
Abstract要約: オープンとクローズなベンチマークとメトリクスの相関について検討する。衛生チェックの更新として、オープン版とクローズド版の両方を備えた新しい医療ベンチマーク、CareQAをリリースする。本稿では,その制約を緩和するため,オープンエンド評価のための新しい指標であるRelaxed Perplexityを提案する。
参考スコア（独自算出の注目度）: 0.42131793931438133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current Large Language Models (LLMs) benchmarks are often based on open-ended or close-ended QA evaluations, avoiding the requirement of human labor. Close-ended measurements evaluate the factuality of responses but lack expressiveness. Open-ended capture the model's capacity to produce discourse responses but are harder to assess for correctness. These two approaches are commonly used, either independently or together, though their relationship remains poorly understood. This work is focused on the healthcare domain, where both factuality and discourse matter greatly. It introduces a comprehensive, multi-axis suite for healthcare LLM evaluation, exploring correlations between open and close benchmarks and metrics. Findings include blind spots and overlaps in current methodologies. As an updated sanity check, we release a new medical benchmark--CareQA--, with both open and closed variants. Finally, we propose a novel metric for open-ended evaluations --Relaxed Perplexity-- to mitigate the identified limitations.
Abstract（参考訳）: 現在のLLM(Large Language Models)ベンチマークは、人的労働の要求を避けるために、しばしばオープンエンドまたはクローズエンドのQA評価に基づいている。クローズドな測定は反応の事実性を評価するが、表現力は欠如している。オープンエンドは、談話応答を生成するためのモデルの能力をキャプチャするが、正確性を評価することは困難である。これらの2つのアプローチは、独立しても一緒にも、一般的に使われているが、それらの関係はよく分かっていない。この研究は、事実と談話の両方が大きな意味を持つ医療分野に焦点を当てている。医療用LLM評価のための包括的で多軸のスイートを導入し、オープンベンチマークとクローズベンチマークとメトリクスの相関について検討している。発見には、現在の方法論における盲点と重複が含まれる。衛生チェックの更新として、オープン版とクローズド版の両方を備えた新しい医療ベンチマーク-CareQA-をリリースする。最後に、特定された制限を緩和するために、オープンエンド評価のための新しい指標 -- 緩和パープレクシティ(Relaxed Perplexity) -- を提案する。

関連論文リスト

Statistical Guarantees of Correctness Coverage for Medical Multiple-Choice Question Answering [0.0]
大規模言語モデル(LLM)は、現実の質問応答(QA)アプリケーションにますます多くデプロイされている。 LLMは幻覚や非現実的な情報を生み出すことが証明されており、高い医療業務における信頼性を損なう。本研究では,CP フレームワークを医療用マルチ選択質問応答 (MCQA) タスクに適用した。
論文参考訳（メタデータ） (2025-03-07T15:22:10Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
ACE-$M^3$: Automatic Capability Evaluator for Multimodal Medical Models [34.81544597731073]
ACE-$M3$, textbfAutomatic textbfCapability textbfEvaluator for textbfMultimodal textbfMedical textbfModelsを紹介する。最初に、標準的な医療評価基準に基づく詳細な分析と簡潔な最終スコアを提供するために、ブランチマージアーキテクチャを利用する。
論文参考訳（メタデータ） (2024-12-16T05:15:43Z)
A Framework for Evaluating LLMs Under Task Indeterminacy [49.298107503257036]
大規模言語モデル(LLM)の評価は、評価コーパスの各項目に対して単一の正しい応答(ゴールドラベル)があると仮定することが多い。タスク不確定性の下でLLMを評価するためのフレームワークを開発する。
論文参考訳（メタデータ） (2024-11-21T00:15:44Z)
A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文参考訳（メタデータ） (2024-11-14T22:54:38Z)
LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文参考訳（メタデータ） (2024-09-23T06:42:21Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文参考訳（メタデータ） (2024-05-26T21:33:27Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
OpenAUC: Towards AUC-Oriented Open-Set Recognition [151.5072746015253]
従来の機械学習は、トレーニングとテストセットが同じラベル空間を共有するという密接な前提に従っている。 Open-Set Recognition (OSR) は、クローズセットサンプルとオープンセットサンプルの両方で正確な予測を行うことを目的としている。これらの問題を解決するために,OpenAUCという新しいメトリクスを提案する。
論文参考訳（メタデータ） (2022-10-22T08:54:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。