論文の概要: TN-Eval: Rubric and Evaluation Protocols for Measuring the Quality of Behavioral Therapy Notes
- arxiv url: http://arxiv.org/abs/2503.20648v1
- Date: Wed, 26 Mar 2025 15:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:12.872189
- Title: TN-Eval: Rubric and Evaluation Protocols for Measuring the Quality of Behavioral Therapy Notes
- Title(参考訳): TN-Eval:行動療法ノートの品質測定のためのルーブリックおよび評価プロトコル
- Authors: Raj Sanjay Shah, Lei Xu, Qianchu Liu, Jon Burnsky, Drew Bertagnolli, Chaitanya Shivade,
- Abstract要約: 行動療法用紙の品質基準は未整備である。
ルーリックベースの手動評価プロトコルは、従来のLikertスケールアノテーションよりも信頼性が高く解釈可能な結果を提供する。
ブラインドテストでは、セラピストは、セラピストが書いたノートよりもLLMが生成したノートの方が優れていると判断し、判断する。
- 参考スコア(独自算出の注目度): 3.9806397855028983
- License:
- Abstract: Behavioral therapy notes are important for both legal compliance and patient care. Unlike progress notes in physical health, quality standards for behavioral therapy notes remain underdeveloped. To address this gap, we collaborated with licensed therapists to design a comprehensive rubric for evaluating therapy notes across key dimensions: completeness, conciseness, and faithfulness. Further, we extend a public dataset of behavioral health conversations with therapist-written notes and LLM-generated notes, and apply our evaluation framework to measure their quality. We find that: (1) A rubric-based manual evaluation protocol offers more reliable and interpretable results than traditional Likert-scale annotations. (2) LLMs can mimic human evaluators in assessing completeness and conciseness but struggle with faithfulness. (3) Therapist-written notes often lack completeness and conciseness, while LLM-generated notes contain hallucination. Surprisingly, in a blind test, therapists prefer and judge LLM-generated notes to be superior to therapist-written notes.
- Abstract(参考訳): 行動療法ノートは、法的コンプライアンスと患者ケアの両方において重要である。
身体健康の進歩ノートとは異なり、行動療法ノートの品質基準は未発達のままである。
このギャップに対処するため、我々はライセンスされたセラピストと共同で、完全性、簡潔性、忠実性といった主要な側面にわたる治療ノートを評価するための総合的なルーリックを設計しました。
さらに,セラピストが書いたメモやLCMが生成したメモによる行動保健会話の公開データセットを拡張し,評価枠組みを適用して評価を行った。
1) ルーブリックベースの手動評価プロトコルは従来のLikertスケールアノテーションよりも信頼性が高く解釈可能な結果を提供する。
2) LLMは, 完全性と簡潔性を評価する上で, 人間の評価を模倣することができるが, 忠実性に苦慮する。
(3) セラピストが書いたノートは完全性や簡潔性に欠けることが多いが、LSMが生成したノートには幻覚が含まれている。
驚くべきことに、ブラインドテストにおいて、セラピストは、セラピストによって書かれたノートよりも優れたLCM生成ノートを好んで判断する。
関連論文リスト
- LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Exploring the Efficacy of Large Language Models in Summarizing Mental
Health Counseling Sessions: A Benchmark Study [17.32433545370711]
セッションの包括的な要約は、メンタルヘルスカウンセリングにおいて効果的な継続を可能にする。
手動要約は、専門家の注意をコアカウンセリングプロセスから逸脱させ、重要な課題を呈する。
本研究は、治療セッションの様々な構成要素を選択的に要約する上で、最先端の大規模言語モデル(LLM)の有効性を評価する。
論文 参考訳(メタデータ) (2024-02-29T11:29:47Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - Automated Scoring of Clinical Patient Notes using Advanced NLP and
Pseudo Labeling [2.711804338865226]
本研究では,最先端自然言語処理(NLP)技術を活用したアプローチを提案する。
提案手法は効率と有効性を向上し,性能を損なうことなくトレーニング時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-01-18T05:17:18Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - A preliminary study on evaluating Consultation Notes with Post-Editing [67.30200768442926]
医師が作成後にメモを編集して提出する半自動的なアプローチを提案します。
編集後,自動生成したコンサルテーションノートの時間節約に関する予備研究を行う。
これを時間をかけて、スクラッチからメモを書くより速いことに気付きます。
論文 参考訳(メタデータ) (2021-04-09T14:42:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。