論文の概要: TN-Eval: Rubric and Evaluation Protocols for Measuring the Quality of Behavioral Therapy Notes
- arxiv url: http://arxiv.org/abs/2503.20648v1
- Date: Wed, 26 Mar 2025 15:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 19:18:47.219868
- Title: TN-Eval: Rubric and Evaluation Protocols for Measuring the Quality of Behavioral Therapy Notes
- Title(参考訳): TN-Eval:行動療法ノートの品質測定のためのルーブリックおよび評価プロトコル
- Authors: Raj Sanjay Shah, Lei Xu, Qianchu Liu, Jon Burnsky, Drew Bertagnolli, Chaitanya Shivade,
- Abstract要約: 行動療法用紙の品質基準は未整備である。
ルーリックベースの手動評価プロトコルは、従来のLikertスケールアノテーションよりも信頼性が高く解釈可能な結果を提供する。
ブラインドテストでは、セラピストは、セラピストが書いたノートよりもLLMが生成したノートの方が優れていると判断し、判断する。
- 参考スコア(独自算出の注目度): 3.9806397855028983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral therapy notes are important for both legal compliance and patient care. Unlike progress notes in physical health, quality standards for behavioral therapy notes remain underdeveloped. To address this gap, we collaborated with licensed therapists to design a comprehensive rubric for evaluating therapy notes across key dimensions: completeness, conciseness, and faithfulness. Further, we extend a public dataset of behavioral health conversations with therapist-written notes and LLM-generated notes, and apply our evaluation framework to measure their quality. We find that: (1) A rubric-based manual evaluation protocol offers more reliable and interpretable results than traditional Likert-scale annotations. (2) LLMs can mimic human evaluators in assessing completeness and conciseness but struggle with faithfulness. (3) Therapist-written notes often lack completeness and conciseness, while LLM-generated notes contain hallucination. Surprisingly, in a blind test, therapists prefer and judge LLM-generated notes to be superior to therapist-written notes.
- Abstract(参考訳): 行動療法ノートは、法的コンプライアンスと患者ケアの両方において重要である。
身体健康の進歩ノートとは異なり、行動療法ノートの品質基準は未発達のままである。
このギャップに対処するため、我々はライセンスされたセラピストと共同で、完全性、簡潔性、忠実性といった主要な側面にわたる治療ノートを評価するための総合的なルーリックを設計しました。
さらに,セラピストが書いたメモやLCMが生成したメモによる行動保健会話の公開データセットを拡張し,評価枠組みを適用して評価を行った。
1) ルーブリックベースの手動評価プロトコルは従来のLikertスケールアノテーションよりも信頼性が高く解釈可能な結果を提供する。
2) LLMは, 完全性と簡潔性を評価する上で, 人間の評価を模倣することができるが, 忠実性に苦慮する。
(3) セラピストが書いたノートは完全性や簡潔性に欠けることが多いが、LSMが生成したノートには幻覚が含まれている。
驚くべきことに、ブラインドテストにおいて、セラピストは、セラピストによって書かれたノートよりも優れたLCM生成ノートを好んで判断する。
関連論文リスト
- Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models [92.93521294357058]
物語療法は、個人が問題のある人生の物語を代替品の力に変えるのに役立つ。
現在のアプローチでは、特殊精神療法ではリアリズムが欠如しており、時間とともに治療の進行を捉えることができない。
Int(Interactive Narrative Therapist)は、治療段階を計画し、反射レベルを誘導し、文脈的に適切な専門家のような反応を生成することによって、専門家の物語セラピストをシミュレートする。
論文 参考訳(メタデータ) (2025-07-27T11:52:09Z) - From Feedback to Checklists: Grounded Evaluation of AI-Generated Clinical Notes [26.750112195124284]
本稿では,実際のユーザフィードバックを構造化されたチェックリストに抽出してノート評価を行うパイプラインを提案する。
21,000人以上の臨床経験から得られた特定データを用いて,フィードバックに基づくチェックリストがベースラインアプローチより優れていることを示す。
オフラインの調査設定では、チェックリストは、選択した品質閾値以下になる可能性のあるメモを特定するのに役立つ。
論文 参考訳(メタデータ) (2025-07-23T17:28:31Z) - AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Query-Guided Self-Supervised Summarization of Nursing Notes [5.835276312834499]
本稿では,QGSummについて紹介する。QGSummは,抽象看護ノート要約のためのクエリ誘導型自己教師型ドメイン適応手法である。
本研究は,看護ノート要約のためのアプローチや他の最先端の大規模言語モデル (LLM) について検討する。
論文 参考訳(メタデータ) (2024-07-04T18:54:30Z) - Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
我々のプロセスには、AIと人間のフィードバックの両方から、継続的な事前トレーニング、教師付き微調整、強化学習が組み込まれています。
得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Exploring the Efficacy of Large Language Models in Summarizing Mental
Health Counseling Sessions: A Benchmark Study [17.32433545370711]
セッションの包括的な要約は、メンタルヘルスカウンセリングにおいて効果的な継続を可能にする。
手動要約は、専門家の注意をコアカウンセリングプロセスから逸脱させ、重要な課題を呈する。
本研究は、治療セッションの様々な構成要素を選択的に要約する上で、最先端の大規模言語モデル(LLM)の有効性を評価する。
論文 参考訳(メタデータ) (2024-02-29T11:29:47Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - Automated Scoring of Clinical Patient Notes using Advanced NLP and
Pseudo Labeling [2.711804338865226]
本研究では,最先端自然言語処理(NLP)技術を活用したアプローチを提案する。
提案手法は効率と有効性を向上し,性能を損なうことなくトレーニング時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-01-18T05:17:18Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - A preliminary study on evaluating Consultation Notes with Post-Editing [67.30200768442926]
医師が作成後にメモを編集して提出する半自動的なアプローチを提案します。
編集後,自動生成したコンサルテーションノートの時間節約に関する予備研究を行う。
これを時間をかけて、スクラッチからメモを書くより速いことに気付きます。
論文 参考訳(メタデータ) (2021-04-09T14:42:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。