論文の概要: PsychEval: A Multi-Session and Multi-Therapy Benchmark for High-Realism and Comprehensive AI Psychological Counselor
- arxiv url: http://arxiv.org/abs/2601.01802v1
- Date: Mon, 05 Jan 2026 05:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.771687
- Title: PsychEval: A Multi-Session and Multi-Therapy Benchmark for High-Realism and Comprehensive AI Psychological Counselor
- Title(参考訳): PsychEval: ハイリアリズムと包括的AI心理学カウンセラーのためのマルチセッションとマルチセラピーベンチマーク
- Authors: Qianjun Pan, Junyi Wang, Jie Zhou, Yutao Yang, Junsong Li, Kaiyin Xu, Yougen Zhou, Yihan Li, Jingyuan Zhao, Qin Chen, Ningning Zhou, Kai Chen, Liang He,
- Abstract要約: textttPsychEvalは、3つの重要な課題に対処するために設計された、マルチセッション、マルチセラピー、そして非常に現実的なベンチマークである。
メモリ連続性、適応推論、縦計画などの重要な機能を必要とする。
データセットには677以上のメタスキルと4577のアトミックスキルを含む、広範なプロフェッショナルスキルが注釈付けされている。
- 参考スコア(独自算出の注目度): 26.81428514159215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To develop a reliable AI for psychological assessment, we introduce \texttt{PsychEval}, a multi-session, multi-therapy, and highly realistic benchmark designed to address three key challenges: \textbf{1) Can we train a highly realistic AI counselor?} Realistic counseling is a longitudinal task requiring sustained memory and dynamic goal tracking. We propose a multi-session benchmark (spanning 6-10 sessions across three distinct stages) that demands critical capabilities such as memory continuity, adaptive reasoning, and longitudinal planning. The dataset is annotated with extensive professional skills, comprising over 677 meta-skills and 4577 atomic skills. \textbf{2) How to train a multi-therapy AI counselor?} While existing models often focus on a single therapy, complex cases frequently require flexible strategies among various therapies. We construct a diverse dataset covering five therapeutic modalities (Psychodynamic, Behaviorism, CBT, Humanistic Existentialist, and Postmodernist) alongside an integrative therapy with a unified three-stage clinical framework across six core psychological topics. \textbf{3) How to systematically evaluate an AI counselor?} We establish a holistic evaluation framework with 18 therapy-specific and therapy-shared metrics across Client-Level and Counselor-Level dimensions. To support this, we also construct over 2,000 diverse client profiles. Extensive experimental analysis fully validates the superior quality and clinical fidelity of our dataset. Crucially, \texttt{PsychEval} transcends static benchmarking to serve as a high-fidelity reinforcement learning environment that enables the self-evolutionary training of clinically responsible and adaptive AI counselors.
- Abstract(参考訳): 心理的アセスメントのための信頼性の高いAIを開発するために、私たちは、マルチセッション、マルチセラピー、高度に現実的なベンチマークである、‘textbf{1)’という3つの重要な課題に対処するために設計された、‘texttt{PsychEval}’を導入します。
現実的なカウンセリングは、持続記憶と動的ゴールトラッキングを必要とする縦方向のタスクである。
本稿では,メモリ連続性,適応推論,長手計画などの重要な機能を必要とするマルチセッションベンチマーク(3つの異なるステージに6-10のセッションを拡大する)を提案する。
データセットには677以上のメタスキルと4577のアトミックスキルを含む、広範なプロフェッショナルスキルが注釈付けされている。
\textbf{2) マルチセラピーAIカウンセラーのトレーニング方法?
既存のモデルは単一の治療に焦点をあてることが多いが、複雑なケースでは様々な治療法の柔軟な戦略を必要とすることが多い。
精神力学,行動主義, CBT, ヒューマニズム的存在主義, ポストモダニストの5つの治療モダリティを包含する多種多様なデータセットを構築し, 統合的な3段階臨床の枠組みによる統合的治療を6つの中核的な心理学的トピックに適用した。
\textbf{3) AIカウンセラーを体系的に評価する方法?
} クライアントレベルとカウンセラーレベルにまたがる18のセラピーおよびセラピー共有メトリクスを用いた総合評価フレームワークを構築した。
これをサポートするために、2000以上の多様なクライアントプロファイルを構築します。
広範囲な実験分析により,データセットの優れた品質と臨床的忠実度が完全に検証された。
重要なことに、‘texttt{PsychEval} は静的ベンチマークを超越して、臨床責任と適応AIカウンセラーの自己進化的トレーニングを可能にする、高忠実な強化学習環境として機能する。
関連論文リスト
- TheraMind: A Strategic and Adaptive Agent for Longitudinal Psychological Counseling [53.46927050949822]
縦断的心理カウンセリングのための戦略的適応型エージェントであるTheraMindを紹介する。
TheraMindの基盤は、カウンセリングプロセスをセッション内ループとクロスセッションループに分離する、新しいデュアルループアーキテクチャである。
クロスセッションループは、各セッション後の適用療法の有効性を評価し、その後の相互作用の方法を調整することにより、長期適応性を有するエージェントに権限を与える。
論文 参考訳(メタデータ) (2025-10-29T17:54:20Z) - MAGneT: Coordinated Multi-Agent Generation of Synthetic Multi-Turn Mental Health Counseling Sessions [58.61680631581921]
合成心理カウンセリングセッション生成のための新しいマルチエージェントフレームワークであるMAGneTを紹介する。
従来の単エージェントアプローチとは異なり、MAGneTは実際のカウンセリングの構造とニュアンスをよりよく捉えている。
実験の結果,MAGneTは既存のカウンセリングセッションの質,多様性,治療的アライメントにおいて有意に優れていた。
論文 参考訳(メタデータ) (2025-09-04T12:59:24Z) - DiaCBT: A Long-Periodic Dialogue Corpus Guided by Cognitive Conceptualization Diagram for CBT-based Psychological Counseling [29.386911644663304]
大規模言語モデル(LLM)は、メンタルヘルスサービスへのアクセスを拡大するための有望なソリューションを提供する。
認知行動療法(CBT)に基づく長期対話コーパスの構築
このデータセットにはカウンセリング毎に複数のセッションが含まれており、クライアントシミュレーションのガイドとして認知概念化ダイアグラム(CCD)が組み込まれている。
論文 参考訳(メタデータ) (2025-09-03T04:17:19Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [50.83055329849865]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。
Redditから現実世界のメンタルヘルス投稿を処理し、マルチターン対話構造を生成する。
実験の結果,PsyLLMは最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-21T16:24:49Z) - PsyCounAssist: A Full-Cycle AI-Powered Psychological Counseling Assistant System [6.868956036918275]
PsyCounAssistは、心理学的カウンセリングの実践を強化するために特別に設計された、包括的なAIによるカウンセリングシステムである。
マルチモーダル感情認識、自動構造化セッションレポート、パーソナライズされたAI生成フォローアップサポートを統合する。
Androidベースのタブレットデバイスにデプロイされたこのシステムは、現実のカウンセリングシナリオにおける実用性と柔軟性を実証する。
論文 参考訳(メタデータ) (2025-04-23T09:49:05Z) - AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling [57.054489290192535]
伝統的な個人の心理カウンセリングは主にニッチであり、心理学的な問題を持つ個人によって選択されることが多い。
オンラインの自動カウンセリングは、恥の感情によって助けを求めることをためらう人たちに潜在的な解決策を提供する。
論文 参考訳(メタデータ) (2025-01-16T09:57:12Z) - CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。
我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。
実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-17T04:52:57Z) - Cactus: Towards Psychological Counseling Conversations using Cognitive Behavioral Theory [24.937025825501998]
我々は,認知行動療法(Cognitive Behavioral Therapy, CBT)の目標指向的, 構造化的アプローチを用いて, 実生活インタラクションをエミュレートする多ターン対話データセットを作成する。
我々は、実際のカウンセリングセッションの評価、専門家の評価との整合性の確保に使用される確立された心理学的基準をベンチマークする。
Cactusで訓練されたモデルであるCamelはカウンセリングスキルにおいて他のモデルよりも優れており、カウンセリングエージェントとしての有効性と可能性を強調している。
論文 参考訳(メタデータ) (2024-07-03T13:41:31Z) - "Am I A Good Therapist?" Automated Evaluation Of Psychotherapy Skills
Using Speech And Language Technologies [38.726068038788384]
5000以上のレコードのデータセットを使用して、当社のプラットフォームとそのパフォーマンスを説明します。
本システムでは,セッションのダイナミクスに関する情報を含む包括的フィードバックをセラピストに提供する。
我々は、近い将来、自動精神療法評価ツールの広範な利用が専門家の能力を増強すると確信している。
論文 参考訳(メタデータ) (2021-02-22T18:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。