論文の概要: Towards a Client-Centered Assessment of LLM Therapists by Client Simulation
- arxiv url: http://arxiv.org/abs/2406.12266v1
- Date: Tue, 18 Jun 2024 04:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:45:27.823110
- Title: Towards a Client-Centered Assessment of LLM Therapists by Client Simulation
- Title(参考訳): クライアントシミュレーションによるLCMセラピストのクライアント中心評価に向けて
- Authors: Jiashuo Wang, Yang Xiao, Yanran Li, Changhe Song, Chunpu Xu, Chenhao Tan, Wenjie Li,
- Abstract要約: 本研究は、シミュレーションクライアントの関与によるLLMセラピストのクライアント中心評価に焦点を当てる。
倫理的には、人間に頻繁にクライアントを模倣させ、潜在的に有害なLCM出力に晒すことは危険であり、安全ではない。
クライアントシミュレーションによりLLMセラピストを評価するクライアント中心のアプローチであるClientCASTを提案する。
- 参考スコア(独自算出の注目度): 35.715821701042266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although there is a growing belief that LLMs can be used as therapists, exploring LLMs' capabilities and inefficacy, particularly from the client's perspective, is limited. This work focuses on a client-centered assessment of LLM therapists with the involvement of simulated clients, a standard approach in clinical medical education. However, there are two challenges when applying the approach to assess LLM therapists at scale. Ethically, asking humans to frequently mimic clients and exposing them to potentially harmful LLM outputs can be risky and unsafe. Technically, it can be difficult to consistently compare the performances of different LLM therapists interacting with the same client. To this end, we adopt LLMs to simulate clients and propose ClientCAST, a client-centered approach to assessing LLM therapists by client simulation. Specifically, the simulated client is utilized to interact with LLM therapists and complete questionnaires related to the interaction. Based on the questionnaire results, we assess LLM therapists from three client-centered aspects: session outcome, therapeutic alliance, and self-reported feelings. We conduct experiments to examine the reliability of ClientCAST and use it to evaluate LLMs therapists implemented by Claude-3, GPT-3.5, LLaMA3-70B, and Mixtral 8*7B. Codes are released at https://github.com/wangjs9/ClientCAST.
- Abstract(参考訳): LLMをセラピストとして使用できるという信念が高まりつつあるが、特にクライアントの観点から、LSMの能力や非効率性を探求することは限られている。
本研究は,臨床医学教育における標準的アプローチであるシミュレート・クライアントの関与によるLLMセラピストのクライアント中心評価に焦点を当てた。
しかし、LLMセラピストを大規模に評価するためにアプローチを適用する際には、2つの課題がある。
倫理的には、人間に頻繁にクライアントを模倣させ、潜在的に有害なLCM出力に晒すことは危険であり、安全ではない。
技術的には、同一クライアントと相互作用する異なるLLMセラピストのパフォーマンスを一貫して比較することは困難である。
この目的のために、クライアントをシミュレートするためにLLMを採用し、クライアントシミュレーションによりLLMセラピストを評価するクライアント中心のアプローチであるClientCASTを提案する。
具体的には、シミュレートされたクライアントを用いて、LSMセラピストと相互作用し、その相互作用に関する完全なアンケートを行う。
質問紙調査の結果から, LLMセラピストは, セッションアウトカム, セラピーアライアンス, 自己報告感情の3つの側面から評価した。
ClientCAST の信頼性を検証し,Claude-3, GPT-3.5, LLaMA3-70B, Mixtral 8*7B による LLM セラピストの評価を行う。
コードはhttps://github.com/wangjs9/ClientCASTで公開されている。
関連論文リスト
- Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PALLM: Evaluating and Enhancing PALLiative Care Conversations with Large Language Models [10.258261180305439]
大規模言語モデル(LLM)は、複雑なコミュニケーションメトリクスを評価するための新しいアプローチを提供する。
LLMは受動的センシングシステムとジャスト・イン・タイム・イン・タイム・イン・イン・介入システムとの統合を通じて、分野を前進させる可能性を提供する。
本研究は, 言語, 文脈内学習, 推論能力を活用した緩和ケアコミュニケーションの質評価手法としてLLMについて検討する。
論文 参考訳(メタデータ) (2024-09-23T16:39:12Z) - Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions [12.455050661682051]
本稿では,カウンセラーとクライアントの相互作用をシミュレートするためのロールプレイングを通じて,2つの大きな言語モデル(LLM)を利用するフレームワークを提案する。
我々のフレームワークは2つのLCMで構成され、1つは特定の実生活のユーザープロファイルを備えたクライアントとして機能し、もう1つは経験豊富なカウンセラーとして機能する。
論文 参考訳(メタデータ) (2024-08-28T13:29:59Z) - An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical Practice [0.0]
大規模言語モデル(LLM)は非決定論的であり、誤ったあるいは有害な応答を与え、品質管理を保証するために規制できない。
提案フレームワークは, 評価された医療情報を含むドメイン固有のデータセットに対して, 一次知識ベースを限定することにより, LLM応答を改良する。
不眠症治療士に対する専門的認知行動療法をブラインド形式で評価した。
論文 参考訳(メタデータ) (2024-07-23T05:00:18Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Can LLM be a Personalized Judge? [24.858529542496367]
LLM-as-a-Personalized-Judgeの信頼性を検討した。
LLM-as-a-Personalized-Judgeの直接適用は,従来想定されていたよりも信頼性が低いことが示唆された。
本研究では,LLM-as-a-Personalized-Judgeパイプラインに不確実性推定を導入し,不確実性判定に対する信頼度を低く表現する。
論文 参考訳(メタデータ) (2024-06-17T15:41:30Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - A Computational Framework for Behavioral Assessment of LLM Therapists [8.373981505033864]
ChatGPTや他の大規模言語モデル(LLM)は、LLMをセラピストとして活用することへの関心を大いに高めた。
本稿では,セラピストとしてLLMの会話行動を研究するための新しい計算フレームワークBOLTを提案する。
我々は, LLM療法士の行動と, 高品質な人的療法の行動を比較し, 高品質な治療で観察される行動をよりよく反映するために, それらの行動をどのように調節するかを検討した。
論文 参考訳(メタデータ) (2024-01-01T17:32:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。