論文の概要: A Computational Framework for Behavioral Assessment of LLM Therapists
- arxiv url: http://arxiv.org/abs/2401.00820v1
- Date: Mon, 1 Jan 2024 17:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:47:13.987115
- Title: A Computational Framework for Behavioral Assessment of LLM Therapists
- Title(参考訳): LLM療法士の行動評価のための計算枠組み
- Authors: Yu Ying Chiu, Ashish Sharma, Inna Wanyin Lin, Tim Althoff
- Abstract要約: ChatGPTや他の大規模言語モデル(LLM)は、LLMをセラピストとして活用することへの関心を大いに高めた。
本稿では,セラピストとしてLLMの会話行動を研究するための新しい計算フレームワークBOLTを提案する。
我々は, LLM療法士の行動と, 高品質な人的療法の行動を比較し, 高品質な治療で観察される行動をよりよく反映するために, それらの行動をどのように調節するかを検討した。
- 参考スコア(独自算出の注目度): 8.373981505033864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of ChatGPT and other large language models (LLMs) has greatly
increased interest in utilizing LLMs as therapists to support individuals
struggling with mental health challenges. However, due to the lack of
systematic studies, our understanding of how LLM therapists behave, i.e., ways
in which they respond to clients, is significantly limited. Understanding their
behavior across a wide range of clients and situations is crucial to accurately
assess their capabilities and limitations in the high-risk setting of mental
health, where undesirable behaviors can lead to severe consequences. In this
paper, we propose BOLT, a novel computational framework to study the
conversational behavior of LLMs when employed as therapists. We develop an
in-context learning method to quantitatively measure the behavior of LLMs based
on 13 different psychotherapy techniques including reflections, questions,
solutions, normalizing, and psychoeducation. Subsequently, we compare the
behavior of LLM therapists against that of high- and low-quality human therapy,
and study how their behavior can be modulated to better reflect behaviors
observed in high-quality therapy. Our analysis of GPT and Llama-variants
reveals that these LLMs often resemble behaviors more commonly exhibited in
low-quality therapy rather than high-quality therapy, such as offering a higher
degree of problem-solving advice when clients share emotions, which is against
typical recommendations. At the same time, unlike low-quality therapy, LLMs
reflect significantly more upon clients' needs and strengths. Our analysis
framework suggests that despite the ability of LLMs to generate anecdotal
examples that appear similar to human therapists, LLM therapists are currently
not fully consistent with high-quality care, and thus require additional
research to ensure quality care.
- Abstract(参考訳): chatgptや他の大規模言語モデル(llm)の出現は、精神疾患に苦しむ個人を支援するセラピストとしてのllmの利用に対する関心を大きく高めている。
しかし、体系的な研究の欠如により、llmセラピストがどのように振る舞うか、すなわち顧客への反応方法を理解することは著しく制限されている。
幅広いクライアントや状況における行動を理解することは、望ましくない行動が深刻な結果をもたらすリスクの高い精神状態において、その能力と限界を正確に評価するために重要である。
本稿では、セラピストとしてLLMの会話行動を研究するための新しい計算フレームワークBOLTを提案する。
本研究では, 反射, 質問, 解答, 正規化, 心理教育を含む13種類の心理療法技術に基づいて, LLMの振る舞いを定量的に測定するインコンテキスト学習法を開発した。
その後,llm療法士の行動と高品質・低品質ヒト療法の行動を比較し,それらの行動がどのようにして高品質治療で観察された行動を反映するかを検討した。
GPTおよびLlama変異体を解析したところ、これらのLSMは、クライアントが感情を共有している場合、より高度な問題解決アドバイスを提供するなど、高品質な治療よりも、低品質治療で一般的に見られる行動によく似ていることが判明した。
同時に、低品質療法とは異なり、LLMは顧客のニーズや強みに大きく反映される。
我々の分析フレームワークは, 人間のセラピストに類似した逸話を生成できるLLMの能力にもかかわらず, LLMセラピストは現在, 高品質なケアと完全に一致していないため, 品質ケアを確保するためにさらなる研究が必要であることを示唆している。
関連論文リスト
- A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。
そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。
GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文 参考訳(メタデータ) (2024-03-08T23:46:37Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - HealMe: Harnessing Cognitive Reframing in Large Language Models for Psychotherapy [25.908522131646258]
メンタルエンハンスメント(HealMe)モデルにおける適応言語によるヘルピングとエンパワーメントについて紹介する。
この新しい認知的リフレーミング療法は、根深い否定的思考に効果的に対処し、合理的でバランスの取れた視点を育む。
我々は、認知リフレーミングのパフォーマンスを厳格に評価するために特別に設計された、包括的で専門的な心理学的評価指標を採用した。
論文 参考訳(メタデータ) (2024-02-26T09:10:34Z) - LLM Agents for Psychology: A Study on Gamified Assessments [71.08193163042107]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Automatic Evaluation for Mental Health Counseling using LLMs [19.71452604279078]
自己または第三者のマニュアルレポートに頼ってカウンセリングの質を評価する既存の方法は、主観的バイアスと時間の制限に悩まされている。
本稿では,大規模言語モデル(LLM)を用いてカウンセリング会話における作業アライアンスを評価するための,革新的で効率的な自動アプローチを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:00:10Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs'
Overconfidence Helps Retrieval Augmentation [72.11942617502956]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Evaluating the Efficacy of Interactive Language Therapy Based on LLM for
High-Functioning Autistic Adolescent Psychological Counseling [1.1780706927049207]
本研究では,高機能自閉症青年に対する対話型言語治療におけるLarge Language Models(LLMs)の有効性について検討した。
LLMは、従来の心理学的カウンセリング手法を強化する新しい機会を提供する。
論文 参考訳(メタデータ) (2023-11-12T07:55:39Z) - Chain of Empathy: Enhancing Empathetic Response of Large Language Models
Based on Psychotherapy Models [2.874893537471256]
本稿では,心理療法の知見を活かして,大規模言語モデル(LLM)を誘導し,人間の感情状態を理解する新しい方法である「共感の連鎖(CoE)」を提案する。
この方法は認知行動療法(CBT)、弁証的行動療法(DBT)、人中心療法(PCT)、現実療法(RT)など様々な心理療法のアプローチにインスパイアされている。
論文 参考訳(メタデータ) (2023-11-02T02:21:39Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。