Fugu-MT 論文翻訳(概要): A Computational Framework for Behavioral Assessment of LLM Therapists

論文の概要: A Computational Framework for Behavioral Assessment of LLM Therapists

arxiv url: http://arxiv.org/abs/2401.00820v2
Date: Thu, 28 Nov 2024 22:01:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.021791
Title: A Computational Framework for Behavioral Assessment of LLM Therapists
Title（参考訳）: LLM療法士の行動評価のための計算枠組み
Authors: Yu Ying Chiu, Ashish Sharma, Inna Wanyin Lin, Tim Althoff,
Abstract要約: ChatGPTのような大規模言語モデル(LLM)は、精神的な健康問題に対処するためのセラピストとしての使用に対する関心が高まっている。 LLMセラピストの会話行動を体系的に評価するための概念実証フレームワークBOLTを提案する。
参考スコア（独自算出の注目度）: 7.665475687919995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of large language models (LLMs) like ChatGPT has increased interest in their use as therapists to address mental health challenges and the widespread lack of access to care. However, experts have emphasized the critical need for systematic evaluation of LLM-based mental health interventions to accurately assess their capabilities and limitations. Here, we propose BOLT, a proof-of-concept computational framework to systematically assess the conversational behavior of LLM therapists. We quantitatively measure LLM behavior across 13 psychotherapeutic approaches with in-context learning methods. Then, we compare the behavior of LLMs against high- and low-quality human therapy. Our analysis based on Motivational Interviewing therapy reveals that LLMs often resemble behaviors more commonly exhibited in low-quality therapy rather than high-quality therapy, such as offering a higher degree of problem-solving advice when clients share emotions. However, unlike low-quality therapy, LLMs reflect significantly more upon clients' needs and strengths. Our findings caution that LLM therapists still require further research for consistent, high-quality care.
Abstract（参考訳）: ChatGPTのような大規模言語モデル(LLM)の出現は、精神的な健康上の問題に対処するためのセラピストとしての使用に対する関心を高め、ケアへのアクセスの幅広い欠如に対処している。しかし専門家は、その能力と限界を正確に評価するために、LSMに基づくメンタルヘルス介入を体系的に評価する上で、重要な必要性を強調している。本稿では,LLM セラピストの会話行動を体系的に評価する概念実証フレームワーク BOLT を提案する。本研究は,13の心理療法的アプローチにおけるLLMの挙動を,文脈内学習法を用いて定量的に測定する。次に,LLMの行動と高次,低次ヒト療法の比較を行った。モチベーション・インタビューティング・セラピーに基づく分析では、LLMは、クライアントが感情を共有する際に、より高度な問題解決アドバイスを提供するなど、高品質な治療よりも、低品質な治療で一般的に見られる行動によく似ていることが判明した。しかし、低品質療法とは異なり、LSMは顧客のニーズや強みに大きく反映される。 LLMセラピストはいまだに、一貫した高品質なケアのためにさらなる研究が必要であると警告した。

関連論文リスト

Expressing stigma and inappropriate responses prevents LLMs from safely replacing mental health providers [7.88918403732414]
本研究では、メンタルヘルスプロバイダの代替として、大規模言語モデル(LLM)の使用について検討する。医学界のベストプラクティスとは対照的に、LSMは精神疾患の患者に対するスティグマを表現している。 LLMはセラピストに取って代わるべきではないと結論し,臨床療法におけるLLMの代替的役割について議論する。
論文参考訳（メタデータ） (2025-04-25T15:14:21Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-17T04:52:57Z)
Therapy as an NLP Task: Psychologists' Comparison of LLMs and Human Peers in CBT [6.812247730094931]
本研究は,大規模言語モデル(LLM)をエビデンスベースの治療の担い手として用いる可能性と限界について検討する。認知行動療法(CBT)に根ざした公衆アクセス型メンタルヘルスの会話を再現し,セッションダイナミクスとカウンセラーのCBTに基づく行動の比較を行った。その結果, ピアセッションは共感, 小話, セラピーアライアンス, 共有体験が特徴であるが, セラピストのドリフトがしばしば現れることがわかった。
論文参考訳（メタデータ） (2024-09-03T19:19:13Z)
Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions [12.455050661682051]
本稿では,カウンセラーとクライアントの相互作用をシミュレートするためのロールプレイングを通じて,2つの大きな言語モデル(LLM)を利用するフレームワークを提案する。我々のフレームワークは2つのLCMで構成され、1つは特定の実生活のユーザープロファイルを備えたクライアントとして機能し、もう1つは経験豊富なカウンセラーとして機能する。
論文参考訳（メタデータ） (2024-08-28T13:29:59Z)
An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical Practice [0.0]
大規模言語モデル(LLM)は非決定論的であり、誤ったあるいは有害な応答を与え、品質管理を保証するために規制できない。提案フレームワークは, 評価された医療情報を含むドメイン固有のデータセットに対して, 一次知識ベースを限定することにより, LLM応答を改良する。不眠症治療士に対する専門的認知行動療法をブラインド形式で評価した。
論文参考訳（メタデータ） (2024-07-23T05:00:18Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。 GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文参考訳（メタデータ） (2024-03-08T23:46:37Z)
HealMe: Harnessing Cognitive Reframing in Large Language Models for Psychotherapy [25.908522131646258]
メンタルエンハンスメント(HealMe)モデルにおける適応言語によるヘルピングとエンパワーメントについて紹介する。この新しい認知的リフレーミング療法は、根深い否定的思考に効果的に対処し、合理的でバランスの取れた視点を育む。我々は、認知リフレーミングのパフォーマンスを厳格に評価するために特別に設計された、包括的で専門的な心理学的評価指標を採用した。
論文参考訳（メタデータ） (2024-02-26T09:10:34Z)
PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文参考訳（メタデータ） (2024-02-19T18:00:30Z)
Evaluating the Efficacy of Interactive Language Therapy Based on LLM for High-Functioning Autistic Adolescent Psychological Counseling [1.1780706927049207]
本研究では,高機能自閉症青年に対する対話型言語治療におけるLarge Language Models(LLMs)の有効性について検討した。 LLMは、従来の心理学的カウンセリング手法を強化する新しい機会を提供する。
論文参考訳（メタデータ） (2023-11-12T07:55:39Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Inducing anxiety in large language models can induce bias [47.85323153767388]
我々は、確立された12の大規模言語モデル(LLM)に焦点を当て、精神医学でよく用いられる質問紙に答える。以上の結果から,最新のLSMの6つが不安アンケートに強く反応し,人間に匹敵する不安スコアが得られた。不安誘発は、LSMのスコアが不安アンケートに影響を及ぼすだけでなく、人種差別や老化などの偏見を測る以前に確立されたベンチマークにおいて、それらの行動に影響を及ぼす。
論文参考訳（メタデータ） (2023-04-21T16:29:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。