論文の概要: WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue
- arxiv url: http://arxiv.org/abs/2511.16544v2
- Date: Fri, 21 Nov 2025 15:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 14:08:26.125495
- Title: WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue
- Title(参考訳): WERは知らない: 対面対話におけるASRエラーが臨床的理解を歪めているか
- Authors: Zachary Ellis, Jared Joselowitz, Yash Deo, Yajie He, Anna Kalygina, Aisling Higham, Mana Rahimzadeh, Yan Jia, Ibrahim Habli, Ernest Lim,
- Abstract要約: ASR(Automatic Speech Recognition)は、臨床対話においてますます普及している。
標準評価は依然としてエラーエラー率(WER)に大きく依存している。
本稿では、WERや他の一般的な指標が転写誤りの臨床的影響と相関するかどうかを基準として検討する。
- 参考スコア(独自算出の注目度): 3.468314243424983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Automatic Speech Recognition (ASR) is increasingly deployed in clinical dialogue, standard evaluations still rely heavily on Word Error Rate (WER). This paper challenges that standard, investigating whether WER or other common metrics correlate with the clinical impact of transcription errors. We establish a gold-standard benchmark by having expert clinicians compare ground-truth utterances to their ASR-generated counterparts, labeling the clinical impact of any discrepancies found in two distinct doctor-patient dialogue datasets. Our analysis reveals that WER and a comprehensive suite of existing metrics correlate poorly with the clinician-assigned risk labels (No, Minimal, or Significant Impact). To bridge this evaluation gap, we introduce an LLM-as-a-Judge, programmatically optimized using GEPA through DSPy to replicate expert clinical assessment. The optimized judge (Gemini-2.5-Pro) achieves human-comparable performance, obtaining 90% accuracy and a strong Cohen's $κ$ of 0.816. This work provides a validated, automated framework for moving ASR evaluation beyond simple textual fidelity to a necessary, scalable assessment of safety in clinical dialogue.
- Abstract(参考訳): 臨床対話における音声認識 (ASR) の展開が進み, 標準評価はワード誤り率 (WER) に大きく依存している。
本稿では、WERや他の一般的な指標が転写誤りの臨床的影響と相関するかどうかを基準として検討する。
臨床医は,2つの異なる医師と患者との対話データセットに見られる相違点の臨床的影響をラベル付けし,ASRが生成した音声と比較することにより,ゴールドスタンダードのベンチマークを確立した。
我々の分析によると、WERと既存のメトリクスの包括的スイートは、臨床医が指定したリスクラベル(No, Minimal, または Significant Impact)とあまり相関しない。
この評価ギャップを埋めるために,DSPyを介してGEPAをプログラム的に最適化したLCM-as-a-Judgeを導入する。
最適化された審査員(Gemini-2.5-Pro)は、90%の精度と強いコーエンのκ$ 0.816を得る。
この研究は、ASR評価を単純なテキストの忠実性を超えて、必要なスケーラブルな臨床対話の安全性評価に移行するための、検証済みで自動化されたフレームワークを提供する。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - A Fully Automatic Framework for Intracranial Pressure Grading: Integrating Keyframe Identification, ONSD Measurement and Clinical Data [3.6652537579778106]
頭蓋内圧(ICP)上昇は脳機能に深刻な脅威をもたらし、時間的介入の監視を必要とする。
OnSD測定と臨床データを統合したICPグレーティングのための完全自動2段階フレームワークを提案する。
評価精度は0.845 pm 0.071$, 独立試験精度0.786であり, 従来のしきい値法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-11T11:37:48Z) - OpenAIs HealthBench in Action: Evaluating an LLM-Based Medical Assistant on Realistic Clinical Queries [2.2807344448218507]
われわれはHealthBenchを用いてRAGをベースとした臨床サポートアシスタントDR.INFOを評価した。
1000の挑戦的な例のハードサブセットでは、DR.INFOはHealthBenchスコア0.51を達成している。
同様のエージェントRAGアシスタントに対する100サンプルの別評価では、ヘルスベンチスコア0.54のパフォーマンスリードを維持している。
論文 参考訳(メタデータ) (2025-08-29T09:51:41Z) - Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。