論文の概要: Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback
- arxiv url: http://arxiv.org/abs/2505.03293v1
- Date: Tue, 06 May 2025 08:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.256555
- Title: Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback
- Title(参考訳): オー・アレナ:三部作フィードバックを用いたLCMに基づく心理的コウンセラーの相互評価と最適化
- Authors: Shijing Zhu, Zhuang Chen, Guanqun Bi, Binghang Li, Yaxi Deng, Dazhen Wan, Libiao Peng, Xiyao Xiao, Rongsheng Zhang, Tangjie Lv, Zhipeng Hu, FangFang Li, Minlie Huang,
- Abstract要約: 大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
- 参考スコア(独自算出の注目度): 51.26493826461026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promise in providing scalable mental health support, while evaluating their counseling capability remains crucial to ensure both efficacy and safety. Existing evaluations are limited by the static assessment that focuses on knowledge tests, the single perspective that centers on user experience, and the open-loop framework that lacks actionable feedback. To address these issues, we propose {\Psi}-Arena, an interactive framework for comprehensive assessment and optimization of LLM-based counselors, featuring three key characteristics: (1) Realistic arena interactions that simulate real-world counseling through multi-stage dialogues with psychologically profiled NPC clients, (2) Tripartite evaluation that integrates assessments from the client, counselor, and supervisor perspectives, and (3) Closed-loop optimization that iteratively improves LLM counselors using diagnostic feedback. Experiments across eight state-of-the-art LLMs show significant performance variations in different real-world scenarios and evaluation perspectives. Moreover, reflection-based optimization results in up to a 141% improvement in counseling performance. We hope PsychoArena provides a foundational resource for advancing reliable and human-aligned LLM applications in mental healthcare.
- Abstract(参考訳): 大規模言語モデル(LLM)は、スケーラブルなメンタルヘルスサポートを提供する上で有望である一方で、カウンセリング能力の評価は、有効性と安全性の両方を保証するために不可欠である。
既存の評価は、知識テストに焦点を当てた静的評価、ユーザエクスペリエンスを重視した単一視点、実用的なフィードバックを欠いたオープンループフレームワークによって制限されている。
これらの課題に対処するために,我々は,(1)心理学的にプロファイルされたNPCクライアントとの多段階対話を通して現実のカウンセリングをシミュレートするリアルアリーナインタラクション,(2)クライアント,カウンセラー,およびスーパーバイザーからのアセスメントを統合する三部作評価,(3)診断フィードバックを用いてLLMカウンセラーを反復的に改善するクローズドループ最適化という,LLMベースのカウンセラーの総合的評価と最適化のための対話的フレームワークである {\Psi}-Arenaを提案する。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
さらに、リフレクションに基づく最適化により、カウンセリング性能が最大141%向上する。
PsychoArenaは、メンタルヘルスケアにおける信頼性と人間対応のLLMアプリケーションを改善するための基礎的なリソースを提供してくれることを願っている。
関連論文リスト
- Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions [12.455050661682051]
本稿では,カウンセラーとクライアントの相互作用をシミュレートするためのロールプレイングを通じて,2つの大きな言語モデル(LLM)を利用するフレームワークを提案する。
我々のフレームワークは2つのLCMで構成され、1つは特定の実生活のユーザープロファイルを備えたクライアントとして機能し、もう1つは経験豊富なカウンセラーとして機能する。
論文 参考訳(メタデータ) (2024-08-28T13:29:59Z) - CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling [27.193022503592342]
中国における心理カウンセリングのための多面的対話再構築・評価フレームワークCPsyCounを提案する。
心理カウンセリングレポートを完全に活用するために、高品質な対話を構築するための2段階のアプローチが考案された。
マルチターン心理相談の効果的な自動評価のための総合評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-05-26T05:18:00Z) - Understanding the Therapeutic Relationship between Counselors and Clients in Online Text-based Counseling using LLMs [18.605352662843575]
テキストベースのカウンセリングにおける治療提携の進展を理解するために,大規模言語モデル(LLM)を用いた自動アプローチを提案する。
我々は包括的カウンセリングデータセットを収集し、このフレームワークに基づいてサブセット上で複数の専門家評価を行う。
当社の調査結果は、カウンセラーが顧客との強いオンライン関係を育む上で直面する課題を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-19T09:00:10Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Opportunities of a Machine Learning-based Decision Support System for
Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。
現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。
我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文 参考訳(メタデータ) (2020-02-27T17:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。