論文の概要: MedScore: Factuality Evaluation of Free-Form Medical Answers
- arxiv url: http://arxiv.org/abs/2505.18452v1
- Date: Sat, 24 May 2025 01:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.431786
- Title: MedScore: Factuality Evaluation of Free-Form Medical Answers
- Title(参考訳): MedScore:フリーフォーム・メディカル・アンサーの実態評価
- Authors: Heyuan Huang, Alexandra DeLucia, Vijay Murari Tiyyala, Mark Dredze,
- Abstract要約: 我々は,医学的回答を条件対応の有効な事実に分解する新しい手法であるMedScoreを提案する。
本手法は,既存手法の最大3倍の有効事実を抽出する。
- 参考スコア(独自算出の注目度): 54.722181966548895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) can generate fluent and convincing responses, they are not necessarily correct. This is especially apparent in the popular decompose-then-verify factuality evaluation pipeline, where LLMs evaluate generations by decomposing the generations into individual, valid claims. Factuality evaluation is especially important for medical answers, since incorrect medical information could seriously harm the patient. However, existing factuality systems are a poor match for the medical domain, as they are typically only evaluated on objective, entity-centric, formulaic texts such as biographies and historical topics. This differs from condition-dependent, conversational, hypothetical, sentence-structure diverse, and subjective medical answers, which makes decomposition into valid facts challenging. We propose MedScore, a new approach to decomposing medical answers into condition-aware valid facts. Our method extracts up to three times more valid facts than existing methods, reducing hallucination and vague references, and retaining condition-dependency in facts. The resulting factuality score significantly varies by decomposition method, verification corpus, and used backbone LLM, highlighting the importance of customizing each step for reliable factuality evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は流動的で説得力のある応答を生成することができるが、必ずしも正しいとは限らない。
これは、LLMが世代を個別に有効なクレームに分解することによって世代を評価する、一般的な分解検証事実性評価パイプラインにおいて特に顕著である。
不正な医療情報が患者に深刻なダメージを与える可能性があるため、医療回答には特に因子評価が重要である。
しかし、既存の事実体系は、一般的には、伝記や歴史的トピックのような客観的で実体中心の定式的なテキストでのみ評価されるため、医療領域では不一致である。
これは条件依存、会話的、仮説的、文構造的、主観的な医学的回答と異なり、有効な事実に分解することが困難である。
我々は,医学的回答を条件対応の有効な事実に分解する新しい手法であるMedScoreを提案する。
提案手法は,既存の方法に比べて最大3倍有効な事実を抽出し,幻覚や曖昧な参照を低減し,事実の条件依存性を維持する。
結果として得られた事実度スコアは, 分解法, 検証コーパス, バックボーンLLMによって大きく異なり, 信頼性の高い事実度評価のために各ステップをカスタマイズすることが重要である。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - OLAPH: Improving Factuality in Biomedical Long-form Question Answering [15.585833125854418]
MedLFQAは、バイオメディカルドメインに関連する長文質問回答データセットを用いて再構成されたベンチマークデータセットである。
また,コスト効率と多面的自動評価を利用した,シンプルで斬新なフレームワークであるOLAPHを提案する。
以上の結果から,OLAPHフレームワークでトレーニングした7B LLMでは,医療専門家の回答に匹敵する回答が得られた。
論文 参考訳(メタデータ) (2024-05-21T11:50:16Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations [63.90357081534995]
大型言語モデル(LLM)からの長文生成には、事実と非事実のクレームが混在している。
Llama-chatのような強力なオープンソースモデルは、検証可能な事実を含む段落を生成することができるが、事実はエンティティの曖昧さのため、非現実的な段落にまとめられる。
我々は、曖昧なエンティティを持つコンテンツに特化して設計された拡張メトリックD-FActScoreを導入する。
論文 参考訳(メタデータ) (2024-02-08T12:36:29Z) - Extrinsically-Focused Evaluation of Omissions in Medical Summarization [9.847304366680772]
大規模言語モデル(LLM)は、医療などの安全クリティカルなアプリケーションにおいて有望であるが、パフォーマンスを定量化する能力は低下している。
MED-OMITは患者の医療記録の要約を評価するための指標として提案される。
論文 参考訳(メタデータ) (2023-11-14T16:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。