論文の概要: CARE-Bench: A Benchmark of Diverse Client Simulations Guided by Expert Principles for Evaluating LLMs in Psychological Counseling
- arxiv url: http://arxiv.org/abs/2511.09407v1
- Date: Thu, 13 Nov 2025 01:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.555851
- Title: CARE-Bench: A Benchmark of Diverse Client Simulations Guided by Expert Principles for Evaluating LLMs in Psychological Counseling
- Title(参考訳): CARE-Bench:心理学的カウンセリングにおけるLCMの評価のためのエキスパート原則による多元的クライアントシミュレーションのベンチマーク
- Authors: Bichen Wang, Yixin Sun, Junzhe Wang, Hao Yang, Xing Fu, Yanyan Zhao, Si Wei, Shijin Wang, Bing Qin,
- Abstract要約: 動的かつインタラクティブな自動ベンチマークである textbfCARE-Bench を導入する。
現実世界のカウンセリングケースから派生した多様なクライアントプロファイルに基づいて構築され、専門家のガイドラインに従ってシミュレートされる。
CARE-Benchは、確立された心理的尺度に基づく多次元のパフォーマンス評価を提供する。
- 参考スコア(独自算出の注目度): 44.86705916946909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mismatch between the growing demand for psychological counseling and the limited availability of services has motivated research into the application of Large Language Models (LLMs) in this domain. Consequently, there is a need for a robust and unified benchmark to assess the counseling competence of various LLMs. Existing works, however, are limited by unprofessional client simulation, static question-and-answer evaluation formats, and unidimensional metrics. These limitations hinder their effectiveness in assessing a model's comprehensive ability to handle diverse and complex clients. To address this gap, we introduce \textbf{CARE-Bench}, a dynamic and interactive automated benchmark. It is built upon diverse client profiles derived from real-world counseling cases and simulated according to expert guidelines. CARE-Bench provides a multidimensional performance evaluation grounded in established psychological scales. Using CARE-Bench, we evaluate several general-purpose LLMs and specialized counseling models, revealing their current limitations. In collaboration with psychologists, we conduct a detailed analysis of the reasons for LLMs' failures when interacting with clients of different types, which provides directions for developing more comprehensive, universal, and effective counseling models.
- Abstract(参考訳): 心理学的カウンセリングの需要の増加とサービスの可用性の限界との間のミスマッチは、この領域におけるLarge Language Models (LLM) の適用に関する研究を動機付けている。
したがって、様々なLSMのカウンセリング能力を評価するために、堅牢で統一されたベンチマークが必要である。
しかし、既存の作業は、非専門的なクライアントシミュレーション、静的な問合せ評価フォーマット、一次元メトリクスによって制限されている。
これらの制限は、モデルが多様で複雑なクライアントを扱う包括的な能力を評価する上で、その効果を妨げます。
このギャップに対処するために,動的かつインタラクティブな自動ベンチマークである \textbf{CARE-Bench} を導入する。
現実世界のカウンセリングケースから派生した多様なクライアントプロファイルに基づいて構築され、専門家のガイドラインに従ってシミュレートされる。
CARE-Benchは、確立された心理的尺度に基づく多次元のパフォーマンス評価を提供する。
CARE-Benchを用いて、いくつかの汎用LCMと専門カウンセリングモデルを評価し、現状の限界を明らかにした。
心理学者とのコラボレーションにおいて、異なるタイプのクライアントと対話する際のLCMの失敗の原因を詳細に分析し、より包括的で普遍的で効果的なカウンセリングモデルを開発するための指針を提供する。
関連論文リスト
- OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series [36.88936933010042]
OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。
6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。
本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T08:27:58Z) - ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge [94.40918390309186]
大規模言語モデル(LLM)の進捗を評価することは、応答を検証するという課題によって制約されることが多い。
7000以上の応答基準ペアの集合であるProfBenchを紹介する。
以上の結果から, ProfBench は最先端の LLM においても大きな課題となることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-21T17:59:44Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - One for All: A General Framework of LLMs-based Multi-Criteria Decision Making on Human Expert Level [7.755152930120769]
本稿では,一般の複雑なMCDM問題に自動的に対処する評価フレームワークを提案する。
フレームワーク内では、ClaudeやChatGPTといった商用モデルと同様に、様々な典型的なオープンソースモデルの性能を評価する。
実験の結果,異なるアプリケーションの精度は95%程度に向上し,異なるモデル間の性能差は自明であることがわかった。
論文 参考訳(メタデータ) (2025-02-17T06:47:20Z) - ACEBench: Who Wins the Match Point in Tool Usage? [86.79310356779108]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions [12.455050661682051]
本稿では,カウンセラーとクライアントの相互作用をシミュレートするためのロールプレイングを通じて,2つの大きな言語モデル(LLM)を利用するフレームワークを提案する。
我々のフレームワークは2つのLCMで構成され、1つは特定の実生活のユーザープロファイルを備えたクライアントとして機能し、もう1つは経験豊富なカウンセラーとして機能する。
論文 参考訳(メタデータ) (2024-08-28T13:29:59Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。