Fugu-MT 論文翻訳(概要): Exploring the Efficacy of Large Language Models in Summarizing Mental Health Counseling Sessions: A Benchmark Study

論文の概要: Exploring the Efficacy of Large Language Models in Summarizing Mental Health Counseling Sessions: A Benchmark Study

arxiv url: http://arxiv.org/abs/2402.19052v1
Date: Thu, 29 Feb 2024 11:29:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 15:15:04.022697
Title: Exploring the Efficacy of Large Language Models in Summarizing Mental Health Counseling Sessions: A Benchmark Study
Title（参考訳）: メンタルヘルスカウンセリングセッションの要約における大規模言語モデルの有効性を探る:ベンチマーク研究
Authors: Prottay Kumar Adhikary, Aseem Srivastava, Shivani Kumar, Salam Michael Singh, Puneet Manuja, Jini K Gopinath, Vijay Krishnan, Swati Kedia, Koushik Sinha Deb, Tanmoy Chakraborty
Abstract要約: セッションの包括的な要約は、メンタルヘルスカウンセリングにおいて効果的な継続を可能にする。手動要約は、専門家の注意をコアカウンセリングプロセスから逸脱させ、重要な課題を呈する。本研究は、治療セッションの様々な構成要素を選択的に要約する上で、最先端の大規模言語モデル(LLM)の有効性を評価する。
参考スコア（独自算出の注目度）: 17.32433545370711
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Comprehensive summaries of sessions enable an effective continuity in mental health counseling, facilitating informed therapy planning. Yet, manual summarization presents a significant challenge, diverting experts' attention from the core counseling process. This study evaluates the effectiveness of state-of-the-art Large Language Models (LLMs) in selectively summarizing various components of therapy sessions through aspect-based summarization, aiming to benchmark their performance. We introduce MentalCLOUDS, a counseling-component guided summarization dataset consisting of 191 counseling sessions with summaries focused on three distinct counseling components (aka counseling aspects). Additionally, we assess the capabilities of 11 state-of-the-art LLMs in addressing the task of component-guided summarization in counseling. The generated summaries are evaluated quantitatively using standard summarization metrics and verified qualitatively by mental health professionals. Our findings demonstrate the superior performance of task-specific LLMs such as MentalLlama, Mistral, and MentalBART in terms of standard quantitative metrics such as Rouge-1, Rouge-2, Rouge-L, and BERTScore across all aspects of counseling components. Further, expert evaluation reveals that Mistral supersedes both MentalLlama and MentalBART based on six parameters -- affective attitude, burden, ethicality, coherence, opportunity costs, and perceived effectiveness. However, these models share the same weakness by demonstrating a potential for improvement in the opportunity costs and perceived effectiveness metrics.
Abstract（参考訳）: セッションの包括的な要約は、メンタルヘルスカウンセリングの効果的な継続を可能にし、情報療法計画を促進する。しかし、手動要約は重要な課題であり、専門家の注意をコアカウンセリングプロセスから逸脱させる。本研究は,最先端の大規模言語モデル (llms) の有効性を,アスペクトベース要約によるセラピーセッションのさまざまなコンポーネントを選択的に要約し,そのパフォーマンスをベンチマークすることを目的として評価する。我々は,3つの個別のカウンセリングコンポーネント(別名カウンセリングアスペクト)に着目した191のカウンセリングセッションからなるカウンセリングコンポーネント案内要約データセットであるmentalcloudsを紹介する。さらに,カウンセリングにおけるコンポーネントガイドによる要約の課題に対する11の最先端llmの能力を評価する。生成した要約は標準要約指標を用いて定量的に評価され、メンタルヘルスの専門家によって定性的に検証される。本研究は, ルージュ1, ルージュ2, ルージュl, ベルツコアなどの標準定量的指標を用いて, カウンセリングコンポーネントのあらゆる面において, メンタルラマ, ミストラル, メンタルバートなどのタスク固有のllmの優れた性能を示す。さらに、専門家評価では、感情的態度、負担、倫理性、一貫性、機会コスト、知覚的効果の6つのパラメータに基づいて、MistralがMentalLlamaとMentalBARTの両方に取って代わっていることが明らかになった。しかしながら、これらのモデルは、機会コストと知覚された有効性メトリクスの改善の可能性を示すことで、同じ弱点を共有します。

関連論文リスト

LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-17T04:52:57Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
Optimizing Psychological Counseling with Instruction-Tuned Large Language Models [9.19192059750618]
本稿では,心理カウンセリングにおける大規模言語モデル(LLM)の適用について検討する。本稿では,共感的,関連性,支援的な応答を提供することで,特定のプロンプトを持つLLMを指導し,その性能を高める方法を提案する。
論文参考訳（メタデータ） (2024-06-19T15:13:07Z)
ERD: A Framework for Improving LLM Reasoning for Cognitive Distortion Classification [14.644324586153866]
本稿では,追加モジュールの助けを借りて認知歪み分類性能を向上させるERDを提案する。公開データセットを用いた実験結果から,ERDは多クラスF1スコアとバイナリ特異性スコアを改善した。
論文参考訳（メタデータ） (2024-03-21T09:28:38Z)
PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文参考訳（メタデータ） (2024-02-19T18:00:30Z)
PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models [34.09419351705938]
本稿では,大規模言語モデル(LLM)を評価するためのメンタルヘルス関連タスクの包括的スイートであるPsyEvalについて述べる。この包括的枠組みは、メンタルヘルス関連のタスクの独特な課題と複雑さを徹底的に評価するために設計されている。
論文参考訳（メタデータ） (2023-11-15T18:32:27Z)
PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-10-31T08:23:33Z)
Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文参考訳（メタデータ） (2023-04-06T19:53:59Z)
Counseling Summarization using Mental Health Knowledge Guided Utterance Filtering [25.524804770124145]
精神医療のカウンセリングは、ドメイン知識を生かし、臨床医が素早く意味を身につけるのを助けるために、要約を指導することを目的としている。我々は、対話毎に12.9Kのカウンセリングコンポーネントと参照サマリーのアノテート後、新しいデータセットを作成する。コンサムには3つの独立したモジュールがある。まず、抑うつ症状の有無を評価するために、患者健康アンケート(PHQ-9)を用いた発話をフィルタリングする。
論文参考訳（メタデータ） (2022-06-08T13:38:47Z)
MET: Multimodal Perception of Engagement for Telehealth [52.54282887530756]
ビデオから人間のエンゲージメントレベルを知覚する学習ベースアルゴリズムMETを提案する。我々はメンタルヘルス患者のエンゲージメント検出のための新しいデータセットMEDICAをリリースした。
論文参考訳（メタデータ） (2020-11-17T15:18:38Z)
Opportunities of a Machine Learning-based Decision Support System for Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文参考訳（メタデータ） (2020-02-27T17:04:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。