論文の概要: From Feedback to Checklists: Grounded Evaluation of AI-Generated Clinical Notes
- arxiv url: http://arxiv.org/abs/2507.17717v2
- Date: Thu, 09 Oct 2025 03:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.595697
- Title: From Feedback to Checklists: Grounded Evaluation of AI-Generated Clinical Notes
- Title(参考訳): フィードバックからチェックリストへ:AI生成臨床ノートの基盤的評価
- Authors: Karen Zhou, John Giorgi, Pranav Mani, Peng Xu, Davis Liang, Chenhao Tan,
- Abstract要約: 本稿では,実際のユーザフィードバックを構造化されたチェックリストに抽出してノート評価を行うパイプラインを提案する。
21,000人以上の臨床検査結果から同定したデータを用いて,フィードバックに基づくチェックリストは,オフライン評価におけるベースラインアプローチよりも優れていることを示す。
オフラインの調査設定では、チェックリストは、定義された品質基準に反するかもしれないメモをフラグする実用的なツールを提供します。
- 参考スコア(独自算出の注目度): 18.88487525876338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-generated clinical notes are increasingly used in healthcare, but evaluating their quality remains a challenge due to high subjectivity and limited scalability of expert review. Existing automated metrics often fail to align with real-world physician preferences. To address this, we propose a pipeline that systematically distills real user feedback into structured checklists for note evaluation. These checklists are designed to be interpretable, grounded in human feedback, and enforceable by LLM-based evaluators. Using deidentified data from over 21,000 clinical encounters (prepared in accordance with the HIPAA safe harbor standard) from a deployed AI medical scribe system, we show that our feedback-derived checklist outperforms a baseline approach in our offline evaluations in coverage, diversity, and predictive power for human ratings. Extensive experiments confirm the checklist's robustness to quality-degrading perturbations, significant alignment with clinician preferences, and practical value as an evaluation methodology. In offline research settings, our checklist offers a practical tool for flagging notes that may fall short of our defined quality standards.
- Abstract(参考訳): AIによって生成された臨床ノートは、医療でますます使われているが、その品質を評価することは、高い主観性と専門家レビューのスケーラビリティが制限されているため、依然として課題である。
既存の自動メトリクスは、現実世界の医師の好みと一致しないことが多い。
そこで本研究では,実際のユーザフィードバックを構造化チェックリストに体系的に蒸留してノート評価を行うパイプラインを提案する。
これらのチェックリストは解釈可能で、人間のフィードバックに基礎を置いており、LLMベースの評価器によって強制できるように設計されている。
デプロイされたAI医療書記システムから得られた21,000件以上の臨床データ(HIPAAセーフハーバー標準に従って準備された)を用いて、我々のフィードバックに基づくチェックリストは、人間の評価に対するカバレッジ、多様性、予測力のオフライン評価において、ベースラインのアプローチより優れていることを示す。
広範囲な実験により、チェックリストの質劣化による摂動に対する堅牢性、臨床医の嗜好との顕著な整合性、評価手法としての実用的価値が確認された。
オフラインの調査設定では、チェックリストは、定義された品質基準に反するかもしれないメモをフラグする実用的なツールを提供します。
関連論文リスト
- Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models [46.81512544528928]
MedCheckは、医療ベンチマーク用に設計された最初のライフサイクル指向アセスメントフレームワークである。
我々のフレームワークは、設計からガバナンスまで、ベンチマークの開発を5つの連続的な段階に分解し、46の医学的基準の包括的なチェックリストを提供する。
本分析では,臨床実践からの深い切り離し,無害な汚染リスクによるデータの整合性の危機,モデルロバスト性や不確実性認識といった安全クリティカルな評価の側面を体系的に無視することなど,全身的な問題を明らかにする。
論文 参考訳(メタデータ) (2025-08-06T11:11:40Z) - Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - TN-Eval: Rubric and Evaluation Protocols for Measuring the Quality of Behavioral Therapy Notes [3.9806397855028983]
行動療法用紙の品質基準は未整備である。
ルーリックベースの手動評価プロトコルは、従来のLikertスケールアノテーションよりも信頼性が高く解釈可能な結果を提供する。
ブラインドテストでは、セラピストは、セラピストが書いたノートよりもLLMが生成したノートの方が優れていると判断し、判断する。
論文 参考訳(メタデータ) (2025-03-26T15:40:40Z) - Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation [31.061600616994145]
HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。
このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。
この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
論文 参考訳(メタデータ) (2025-01-12T07:30:49Z) - DocLens: Multi-aspect Fine-grained Evaluation for Medical Text Generation [37.58514130165496]
本稿では, 医療用テキストの完全性, 簡潔性, 帰属性を評価するための指標セットを提案する。
メトリクスは、インストラクションフォロー(プロプライエタリとオープンソースの両方)や教師付きエンタテインメントモデルなど、さまざまなタイプの評価者によって計算できる。
総合的な人間の研究によると、DocLensは既存の指標よりも医療専門家の判断とかなり高い一致を示している。
論文 参考訳(メタデータ) (2023-11-16T05:32:09Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - RECAP-KG: Mining Knowledge Graphs from Raw GP Notes for Remote COVID-19
Assessment in Primary Care [45.43645878061283]
本稿では,患者相談の前後に書かれた生のGP医療ノートから知識グラフ構築を行うフレームワークを提案する。
私たちの知識グラフには、既存の患者の症状、その持続時間、重症度に関する情報が含まれています。
本フレームワークを英国における新型コロナウイルス患者の相談ノートに適用する。
論文 参考訳(メタデータ) (2023-06-17T23:35:51Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - A Methodology for Bi-Directional Knowledge-Based Assessment of
Compliance to Continuous Application of Clinical Guidelines [1.52292571922932]
ケアプロセスのガイドラインに基づく品質評価を自動化するための新しいアプローチを提案する。
BiKBAC法は臨床ガイドラインを適用する際のコンプライアンスの度合いを評価する。
DiscovErrシステムは、2型糖尿病管理領域の別の研究で評価されました。
論文 参考訳(メタデータ) (2021-03-13T20:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。