論文の概要: MORQA: Benchmarking Evaluation Metrics for Medical Open-Ended Question Answering
- arxiv url: http://arxiv.org/abs/2509.12405v1
- Date: Mon, 15 Sep 2025 19:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.745387
- Title: MORQA: Benchmarking Evaluation Metrics for Medical Open-Ended Question Answering
- Title(参考訳): MORQA: オープンエンド質問回答のためのベンチマーク評価指標
- Authors: Wen-wai Yim, Asma Ben Abacha, Zixuan Yu, Robert Doerning, Fei Xia, Meliha Yetisgen,
- Abstract要約: 我々は,NLG評価指標の有効性を評価するために,新しい多言語ベンチマークであるMORQAを紹介する。
従来のメトリクスと大規模言語モデル(LLM)ベースの評価器(GPT-4やGeminiなど)をベンチマークする。
本研究は,医学領域におけるNLG評価の総合的,多言語的質的研究である。
- 参考スコア(独自算出の注目度): 11.575146661047368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating natural language generation (NLG) systems in the medical domain presents unique challenges due to the critical demands for accuracy, relevance, and domain-specific expertise. Traditional automatic evaluation metrics, such as BLEU, ROUGE, and BERTScore, often fall short in distinguishing between high-quality outputs, especially given the open-ended nature of medical question answering (QA) tasks where multiple valid responses may exist. In this work, we introduce MORQA (Medical Open-Response QA), a new multilingual benchmark designed to assess the effectiveness of NLG evaluation metrics across three medical visual and text-based QA datasets in English and Chinese. Unlike prior resources, our datasets feature 2-4+ gold-standard answers authored by medical professionals, along with expert human ratings for three English and Chinese subsets. We benchmark both traditional metrics and large language model (LLM)-based evaluators, such as GPT-4 and Gemini, finding that LLM-based approaches significantly outperform traditional metrics in correlating with expert judgments. We further analyze factors driving this improvement, including LLMs' sensitivity to semantic nuances and robustness to variability among reference answers. Our results provide the first comprehensive, multilingual qualitative study of NLG evaluation in the medical domain, highlighting the need for human-aligned evaluation methods. All datasets and annotations will be publicly released to support future research.
- Abstract(参考訳): 医学領域における自然言語生成(NLG)システムの評価は、正確性、関連性、およびドメイン固有の専門知識に対する重要な要求のため、固有の課題を提示する。
BLEU、ROUGE、BERTScoreといった従来の自動評価指標は、高品質なアウトプットの区別に不足することが多い。
本研究は,医学的視覚およびテキストに基づく3つのQAデータセットにおけるNLG評価指標の有効性を評価するための多言語ベンチマークであるMORQA(Medical Open-Response QA)を紹介する。
これまでのリソースとは違って、我々のデータセットは、医療専門家によって書かれた2-4以上のゴールドスタンダードの回答と、英語と中国語の3つのサブセットの人間の評価を特徴としている。
GPT-4 や Gemini のような従来のメトリクスと大規模言語モデル (LLM) ベースの評価器をベンチマークした結果,LSM ベースのアプローチは,専門家の判断と相関して従来のメトリクスを著しく上回っていることがわかった。
さらに,LLMの意味的ニュアンスに対する感受性や,参照応答の変動性に対する堅牢性など,この改善を導く要因を分析した。
本研究は,医学領域におけるNLG評価の総合的,多言語的質的研究であり,人為的な評価方法の必要性を浮き彫りにしたものである。
すべてのデータセットとアノテーションが公開され、将来の研究をサポートする。
関連論文リスト
- LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks [8.379270814399431]
本研究は、7つのアラビア医療タスクからなる新しいベンチマークデータセットであるMedArabiQを紹介する。
筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。
次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
論文 参考訳(メタデータ) (2025-05-06T11:07:26Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。