論文の概要: Exploring the Efficacy of Large Language Models in Summarizing Mental
Health Counseling Sessions: A Benchmark Study
- arxiv url: http://arxiv.org/abs/2402.19052v1
- Date: Thu, 29 Feb 2024 11:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:15:04.022697
- Title: Exploring the Efficacy of Large Language Models in Summarizing Mental
Health Counseling Sessions: A Benchmark Study
- Title(参考訳): メンタルヘルスカウンセリングセッションの要約における大規模言語モデルの有効性を探る:ベンチマーク研究
- Authors: Prottay Kumar Adhikary, Aseem Srivastava, Shivani Kumar, Salam Michael
Singh, Puneet Manuja, Jini K Gopinath, Vijay Krishnan, Swati Kedia, Koushik
Sinha Deb, Tanmoy Chakraborty
- Abstract要約: セッションの包括的な要約は、メンタルヘルスカウンセリングにおいて効果的な継続を可能にする。
手動要約は、専門家の注意をコアカウンセリングプロセスから逸脱させ、重要な課題を呈する。
本研究は、治療セッションの様々な構成要素を選択的に要約する上で、最先端の大規模言語モデル(LLM)の有効性を評価する。
- 参考スコア(独自算出の注目度): 17.32433545370711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive summaries of sessions enable an effective continuity in mental
health counseling, facilitating informed therapy planning. Yet, manual
summarization presents a significant challenge, diverting experts' attention
from the core counseling process. This study evaluates the effectiveness of
state-of-the-art Large Language Models (LLMs) in selectively summarizing
various components of therapy sessions through aspect-based summarization,
aiming to benchmark their performance. We introduce MentalCLOUDS, a
counseling-component guided summarization dataset consisting of 191 counseling
sessions with summaries focused on three distinct counseling components (aka
counseling aspects). Additionally, we assess the capabilities of 11
state-of-the-art LLMs in addressing the task of component-guided summarization
in counseling. The generated summaries are evaluated quantitatively using
standard summarization metrics and verified qualitatively by mental health
professionals. Our findings demonstrate the superior performance of
task-specific LLMs such as MentalLlama, Mistral, and MentalBART in terms of
standard quantitative metrics such as Rouge-1, Rouge-2, Rouge-L, and BERTScore
across all aspects of counseling components. Further, expert evaluation reveals
that Mistral supersedes both MentalLlama and MentalBART based on six parameters
-- affective attitude, burden, ethicality, coherence, opportunity costs, and
perceived effectiveness. However, these models share the same weakness by
demonstrating a potential for improvement in the opportunity costs and
perceived effectiveness metrics.
- Abstract(参考訳): セッションの包括的な要約は、メンタルヘルスカウンセリングの効果的な継続を可能にし、情報療法計画を促進する。
しかし、手動要約は重要な課題であり、専門家の注意をコアカウンセリングプロセスから逸脱させる。
本研究は,最先端の大規模言語モデル (llms) の有効性を,アスペクトベース要約によるセラピーセッションのさまざまなコンポーネントを選択的に要約し,そのパフォーマンスをベンチマークすることを目的として評価する。
我々は,3つの個別のカウンセリングコンポーネント(別名カウンセリングアスペクト)に着目した191のカウンセリングセッションからなるカウンセリングコンポーネント案内要約データセットであるmentalcloudsを紹介する。
さらに,カウンセリングにおけるコンポーネントガイドによる要約の課題に対する11の最先端llmの能力を評価する。
生成した要約は標準要約指標を用いて定量的に評価され、メンタルヘルスの専門家によって定性的に検証される。
本研究は, ルージュ1, ルージュ2, ルージュl, ベルツコアなどの標準定量的指標を用いて, カウンセリングコンポーネントのあらゆる面において, メンタルラマ, ミストラル, メンタルバートなどのタスク固有のllmの優れた性能を示す。
さらに、専門家評価では、感情的態度、負担、倫理性、一貫性、機会コスト、知覚的効果の6つのパラメータに基づいて、MistralがMentalLlamaとMentalBARTの両方に取って代わっていることが明らかになった。
しかしながら、これらのモデルは、機会コストと知覚された有効性メトリクスの改善の可能性を示すことで、同じ弱点を共有します。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - LLM Agents for Psychology: A Study on Gamified Assessments [71.08193163042107]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Automatic Evaluation for Mental Health Counseling using LLMs [19.71452604279078]
自己または第三者のマニュアルレポートに頼ってカウンセリングの質を評価する既存の方法は、主観的バイアスと時間の制限に悩まされている。
本稿では,大規模言語モデル(LLM)を用いてカウンセリング会話における作業アライアンスを評価するための,革新的で効率的な自動アプローチを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:00:10Z) - PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for
Mental Health [42.34080498780955]
メンタルヘルス領域の特徴に合わせた,最初の総合的なベンチマークを紹介する。
このベンチマークは、合計6つのサブタスクを含み、3次元をカバーする。
我々は,ベンチマークを用いて,合計8つの高度なLCMを総合的に評価した。
論文 参考訳(メタデータ) (2023-11-15T18:32:27Z) - Evaluating the Efficacy of Interactive Language Therapy Based on LLM for
High-Functioning Autistic Adolescent Psychological Counseling [1.1780706927049207]
本研究では,高機能自閉症青年に対する対話型言語治療におけるLarge Language Models(LLMs)の有効性について検討した。
LLMは、従来の心理学的カウンセリング手法を強化する新しい機会を提供する。
論文 参考訳(メタデータ) (2023-11-12T07:55:39Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。
本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。
得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文 参考訳(メタデータ) (2023-04-06T19:53:59Z) - Counseling Summarization using Mental Health Knowledge Guided Utterance
Filtering [25.524804770124145]
精神医療のカウンセリングは、ドメイン知識を生かし、臨床医が素早く意味を身につけるのを助けるために、要約を指導することを目的としている。
我々は、対話毎に12.9Kのカウンセリングコンポーネントと参照サマリーのアノテート後、新しいデータセットを作成する。
コンサムには3つの独立したモジュールがある。まず、抑うつ症状の有無を評価するために、患者健康アンケート(PHQ-9)を用いた発話をフィルタリングする。
論文 参考訳(メタデータ) (2022-06-08T13:38:47Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - MET: Multimodal Perception of Engagement for Telehealth [52.54282887530756]
ビデオから人間のエンゲージメントレベルを知覚する学習ベースアルゴリズムMETを提案する。
我々はメンタルヘルス患者のエンゲージメント検出のための新しいデータセットMEDICAをリリースした。
論文 参考訳(メタデータ) (2020-11-17T15:18:38Z) - Opportunities of a Machine Learning-based Decision Support System for
Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。
現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。
我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文 参考訳(メタデータ) (2020-02-27T17:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。