論文の概要: LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints
- arxiv url: http://arxiv.org/abs/2510.10415v1
- Date: Sun, 12 Oct 2025 02:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.929167
- Title: LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints
- Title(参考訳): LONGQAEVAL:資源制約下における長期臨床QAの信頼性評価
- Authors: Federica Bologna, Tiffany Pan, Matthew Wilkens, Yue Guo, Lucy Lu Wang,
- Abstract要約: LongQAEvalは、限られたリソースと高度な設定のための評価フレームワークと一連の評価レコメンデーションである。
正確さ,妥当性,安全性について,粗い回答レベルときめ細かな文レベル評価を比較した。
- 参考スコア(独自算出の注目度): 11.707791735998343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.
- Abstract(参考訳): 正確な判断には医学的専門知識が必要であり、長期テキストよりも一貫性のある人間の判断を達成することは困難である。
本稿では,LongQAEvalについて紹介する。LongQAEvalは,限られたリソースと高度な設定に対して,評価フレームワークと一連の評価レコメンデーションを提供する。
医師やLLMが回答した300件の実際の患者質問に対する医師の注記に基づいて, 正確性, 妥当性, 安全性について, 粗い回答レベルときめ細かい文章レベルの評価を比較した。
微粒なアノテーションは正確性に関する合意を改善し、粗いアノテーションは関連性に関する合意を改善し、安全に関する判断は矛盾しない。
さらに、少数の文のみに注釈を付けることで、粗いアノテーションに匹敵する信頼性を提供し、コストと労力を削減できる。
関連論文リスト
- From Feedback to Checklists: Grounded Evaluation of AI-Generated Clinical Notes [18.88487525876338]
本稿では,実際のユーザフィードバックを構造化されたチェックリストに抽出してノート評価を行うパイプラインを提案する。
21,000人以上の臨床検査結果から同定したデータを用いて,フィードバックに基づくチェックリストは,オフライン評価におけるベースラインアプローチよりも優れていることを示す。
オフラインの調査設定では、チェックリストは、定義された品質基準に反するかもしれないメモをフラグする実用的なツールを提供します。
論文 参考訳(メタデータ) (2025-07-23T17:28:31Z) - Trustworthy Medical Question Answering: An Evaluation-Centric Survey [36.06747842975472]
医療質問応答システムにおける信頼性の6つの重要な側面を体系的に検討した。
モデル改善を促進する評価誘導手法を解析する。
我々は, LLM を用いた医療用QAの安全性, 信頼性, 透明性の確保に向けた今後の研究方針を提案する。
論文 参考訳(メタデータ) (2025-06-04T07:48:10Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation [31.061600616994145]
HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。
このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。
この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
論文 参考訳(メタデータ) (2025-01-12T07:30:49Z) - QAPyramid: Fine-grained Evaluation of Content Selection for Text Summarization [62.809455597778616]
本稿ではQAPyramidを提案する。QA-SRLフレームワークにより,各参照要約をよりきめ細かな問合せ対に分解する。
この結果から,QAPyramidはより体系的かつきめ細かなコンテンツ選択評価を提供すると同時に,専門家のアノテーションを必要とせず,アノテータ間の高合意を維持していることがわかった。
論文 参考訳(メタデータ) (2024-12-10T01:29:51Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。