論文の概要: Beyond Literal Summarization: Redefining Hallucination for Medical SOAP Note Evaluation
- arxiv url: http://arxiv.org/abs/2604.14829v1
- Date: Thu, 16 Apr 2026 10:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.833793
- Title: Beyond Literal Summarization: Redefining Hallucination for Medical SOAP Note Evaluation
- Title(参考訳): リテラル要約を超えて:医療用SOAPノート評価のための幻覚を再定義する
- Authors: Bhavik Vachhani, Kush Shrisvastava, Pranshu Nema, Sai Chiranthan,
- Abstract要約: 評価手法は語彙的忠実度に依存しており, 書字中に明示的に存在しない情報を幻覚としてラベル付けすることが多い。
このような手法は, 臨床的に有効なアウトプットを誤分類し, 幻覚率を膨らませたり, モデル評価を歪ませたりする。
- 参考スコア(独自算出の注目度): 0.6533091401094101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) for clinical documentation tasks such as SOAP note generation remains challenging. Unlike standard summarization, these tasks require clinical abstraction, normalization of colloquial language, and medically grounded inference. However, prevailing evaluation methods including automated metrics and LLM as judge frameworks rely on lexical faithfulness, often labeling any information not explicitly present in the transcript as hallucination. We show that such approaches systematically misclassify clinically valid outputs as errors, inflating hallucination rates and distorting model assessment. Our analysis reveals that many flagged hallucinations correspond to legitimate clinical transformations, including synonym mapping, abstraction of examination findings, diagnostic inference, and guideline consistent care planning. By aligning evaluation criteria with clinical reasoning through calibrated prompting and retrieval grounded in medical ontologies we observe a significant shift in outcomes. Under a lexical evaluation regime, the mean hallucination rate is 35%, heavily penalizing valid reasoning. With inference aware evaluation, this drops to 9%, with remaining cases reflecting genuine safety concerns. These findings suggest that current evaluation practices over penalize valid clinical reasoning and may measure artifacts of evaluation design rather than true errors, underscoring the need for clinically informed evaluation in high context domains like medicine.
- Abstract(参考訳): SOAPノート生成のような臨床ドキュメントタスクのための大規模言語モデル(LLM)の評価は依然として難しい。
標準的な要約とは異なり、これらのタスクは臨床的な抽象化、口語正規化、医学的な根拠を持つ推論を必要とする。
しかしながら、判断フレームワークとしての自動化メトリクスやLCMなどの一般的な評価手法は、しばしば、書面に明示的に存在しない情報を幻覚としてラベル付けする、語彙的忠実さに依存している。
このような手法は, 臨床的に有効なアウトプットを誤分類し, 幻覚率を膨らませたり, モデル評価を歪ませたりする。
分析の結果,同義語マッピング,検査結果の抽象化,診断推測,ガイドラインの整合性ケア計画など,多くのフラグ付き幻覚が正統な臨床変化に対応していることが明らかとなった。
評価基準と臨床推論を整合させることにより,医療オントロジーに根ざした診断・検索を行い,結果の大きな変化を観察する。
語彙的評価体制の下では、平均幻覚率は35%であり、妥当な推論を厳しく罰する。
推論を意識した評価では、9%に低下し、残るケースは真の安全上の懸念を反映している。
以上の結果から, 医療などの高文脈領域において, 臨床知識による評価の必要性を浮き彫りにすることで, 有効な臨床推論を罰し, 真の誤りではなく, 評価設計の成果物を計測できる可能性が示唆された。
関連論文リスト
- Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification [12.60121003165514]
ヴィジュアル言語モデル(VLM)は放射線学レポートの起草において有望であるが、しばしば論理的矛盾に悩まされる。
標準的な語彙測度は、臨床パラフレージングを強く罰し、これらの誘因的障害を捉えるのに失敗する。
本稿では,VLMレポートの内部一貫性を決定的に監査するニューロシンボリック検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-27T15:49:59Z) - Beyond Accuracy: Risk-Sensitive Evaluation of Hallucinated Medical Advice [0.1609950046042424]
本稿では,リスクを負う言語の存在によって幻覚を定量化するリスク感受性評価フレームワークを提案する。
安全ストレステストとして設計された患者対応プロンプトを用いて,3つの言語モデルに本フレームワークを適用した。
論文 参考訳(メタデータ) (2026-02-07T02:25:44Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - ReEvalMed: Rethinking Medical Report Evaluation by Aligning Metrics with Real-World Clinical Judgment [10.958326795130112]
臨床基盤のメタ評価フレームワークを提案する。
臨床診断基準は,臨床のアライメントと重要な指標能力にまたがる。
我々のフレームワークは、より臨床的に信頼性の高い評価方法を構築するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T21:00:47Z) - Not What the Doctor Ordered: Surveying LLM-based De-identification and Quantifying Clinical Information Loss [1.514900191663287]
医療環境の非識別化は、NLPの応用であり、自動化されたアルゴリズムを使用して患者の個人識別情報(時には提供者)を除去する。
近年, 生成型大規模言語モデル (LLM) の台頭に伴い, LLM を非識別に応用する論文が増えてきている。
本報告では, 従来の分類基準が誤りを捉える上で不十分であったこと, それらの誤りを定量化するための自動指標の検証が手作業で行われていないこと, など, 現状の文献における3つの重要な限界について述べる。
論文 参考訳(メタデータ) (2025-09-17T22:37:15Z) - MedScore: Generalizable Factuality Evaluation of Free-Form Medical Answers by Domain-adapted Claim Decomposition and Verification [51.82420076479152]
MedScoreは、医学的回答を条件対応の有効な事実に分解し、ドメイン内コーパスに対する検証を行うための新しいパイプラインである。
提案手法は,既存の方法に比べて最大3倍有効な事実を抽出し,幻覚や曖昧な参照を低減し,事実の条件依存性を維持する。
論文 参考訳(メタデータ) (2025-05-24T01:23:09Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。