論文の概要: Evaluating AI Counseling in Japanese: Counselor, Client, and Evaluator Roles Assessed by Motivational Interviewing Criteria
- arxiv url: http://arxiv.org/abs/2507.02950v2
- Date: Tue, 08 Jul 2025 06:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.159662
- Title: Evaluating AI Counseling in Japanese: Counselor, Client, and Evaluator Roles Assessed by Motivational Interviewing Criteria
- Title(参考訳): 日本語におけるAIカウンセリングの評価:モチベーション面接基準によるカウンセラー、クライアント、評価者の役割評価
- Authors: Keita Kiuchi, Yoshikazu Fujimoto, Hideyuki Goto, Tomonori Hosokawa, Makoto Nishimura, Yosuke Sato, Izumi Sezai,
- Abstract要約: 本研究は,日本語治療における3つのカウンセリングの役割において,大規模言語モデル(LLM)の性能を総合的に評価した最初の事例である。
我々は同時に、カウンセラー人工知能(AI)システム(GPT-4-turbo with zeroshot prompting or Structured Multi-step Dialogue Prompts (SMDP), Claude-3-Opus-SMDP)、クライアントAIシミュレーション、評価AIシステム(o3, Claude-3.7-Sonnet, Gemini-2.5-pro)を評価した。
Geminiはパワーシェアリングを強調し、o3は技術的熟練に焦点を当て、Sonnetは感情表現を優先した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study provides the first comprehensive evaluation of large language model (LLM) performance across three counseling roles in Japanese-language therapeutic contexts. We simultaneously assessed counselor artificial intelligence (AI) systems (GPT-4-turbo with zeroshot prompting or Structured Multi-step Dialogue Prompts (SMDP), Claude-3-Opus-SMDP), client AI simulations, and evaluation AI systems (o3, Claude-3.7-Sonnet, Gemini-2.5-pro). Human experts (n = 15) with extensive counseling experience evaluated AI-generated dialogues using the Motivational Interviewing Treatment Integrity (MITI) Coding Manual 4.2.1. Notably, SMDP implementation significantly enhanced counselor AI performance across all MITI global ratings compared with zeroshot prompting, with no significant differences between GPT-SMDP and Opus-SMDP. Evaluation AIs showed comparable performance to human raters for Cultivating Change Talk but systematically overestimated Softening Sustain Talk and the overall quality metrics. Model-specific biases emerged: Gemini emphasized power-sharing, o3 focused on technical proficiency, and Sonnet prioritized emotional expression. Client AI simulations exhibited a limited emotional range and unnaturally high compliance, indicating the need for enhanced realism. These findings establish benchmarks for AI-assisted counseling in non-English contexts and identify critical areas for improvement through advanced prompt engineering, retrieval-augmented generation, and targeted fine-tuning, with important implications for developing culturally sensitive AI mental health tools.
- Abstract(参考訳): 本研究は,日本語治療における3つのカウンセリングの役割において,大規模言語モデル(LLM)の性能を総合的に評価した最初の事例である。
我々は同時に、カウンセラー人工知能(AI)システム(GPT-4-turbo with zeroshot prompting or Structured Multi-step Dialogue Prompts (SMDP), Claude-3-Opus-SMDP)、クライアントAIシミュレーション、評価AIシステム(o3, Claude-3.7-Sonnet, Gemini-2.5-pro)を評価した。
広範囲なカウンセリング経験を持つ人間専門家(n = 15)は、モチベーション・インタビュー処理統合(MITI)符号化マニュアル4.2.1を用いてAI生成対話を評価した。
特に、SMDPの実装は、GPT-SMDPとOpus-SMDPの間に大きな違いはなく、ゼロショットプロンプトと比較して、すべてのMITIグローバルレーティングでカウンセラーAIのパフォーマンスを著しく向上させた。
評価AIは、変化の講演を育むための人間レーダに匹敵するパフォーマンスを示したが、体系的にSoftening Sustain Talkと全体的な品質指標を過大評価した。
Geminiはパワーシェアリングを強調し、o3は技術的熟練に焦点を当て、Sonnetは感情表現を優先した。
クライアントAIシミュレーションは、限られた感情範囲と非自然に高いコンプライアンスを示し、現実主義の強化の必要性を示した。
これらの結果は、非英語の文脈におけるAI支援カウンセリングのベンチマークを確立し、高度な迅速なエンジニアリング、検索強化世代、ターゲットとする微調整を通じて、改善のための重要な領域を特定し、文化的に敏感なAIメンタルヘルスツールの開発に重要な意味を持つ。
関連論文リスト
- The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - AI-Augmented LLMs Achieve Therapist-Level Responses in Motivational Interviewing [9.629072515294661]
大規模言語モデル(LLM)は中毒治療における動機付け面接(MI)のスケーリングの可能性を示す。
本稿では,ユーザ認識品質(UPQ)を評価するための計算フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T01:33:04Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - DeepPsy-Agent: A Stage-Aware and Deep-Thinking Emotional Support Agent System [10.262822400879688]
DeepPsy-Agentは、心理学における3段階の援助理論とディープラーニング技術を組み合わせた革新的な心理学的支援システムである。
リアルな3万の心理的ホットラインの会話に基づいて、AIシミュレーション対話と専門家による再注釈戦略を用いて、高品質なマルチターン対話データセットを構築します。
論文 参考訳(メタデータ) (2025-03-20T05:59:29Z) - Dialogue You Can Trust: Human and AI Perspectives on Generated Conversations [1.178527785547223]
本研究では,対話シナリオにおける人間とAIアセスメントの比較パフォーマンスについて検討する。
実験1では,コヒーレンス,イノベーション,具体性,ゴールコントリビューションに関する多人数会話を評価した。
実験2では,ダイアドダイアログに着目し,コモンセンス・コントラディクション,不正確なファクト,冗長性を評価した。
論文 参考訳(メタデータ) (2024-09-03T11:40:38Z) - An AI System Evaluation Framework for Advancing AI Safety: Terminology, Taxonomy, Lifecycle Mapping [23.92695048003188]
本稿では,3つのコンポーネントからなるAIシステム評価フレームワークを提案する。
このフレームワークは、モデル中心のアプローチを越えて、AIシステム評価に関するより深い議論を触媒する。
論文 参考訳(メタデータ) (2024-04-08T10:49:59Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。