論文の概要: Do No Harm: Exposing Hidden Vulnerabilities of LLMs via Persona-based Client Simulation Attack in Psychological Counseling
- arxiv url: http://arxiv.org/abs/2604.04842v1
- Date: Mon, 06 Apr 2026 16:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.289584
- Title: Do No Harm: Exposing Hidden Vulnerabilities of LLMs via Persona-based Client Simulation Attack in Psychological Counseling
- Title(参考訳): Do No Harm:心理学的カウンセリングにおけるペルソナによるクライアントシミュレーション攻撃によるLLMの隠れた脆弱性の抽出
- Authors: Qingyang Xu, Yaling Shen, Stephanie Fong, Zimu Wang, Yiwen Jiang, Xiangyu Zhao, Jiahe Liu, Zhongxing Xu, Vincent Lee, Zongyuan Ge,
- Abstract要約: パーソナリティベースのクライアントシミュレーション攻撃(PCSA)は、コヒーレントでペルソナ駆動のクライアント対話を通じて、心理的カウンセリングにおいてクライアントをシミュレートする。
以上の結果から,現在の LLM は,未承認の医療アドバイスの提供,妄想の強化,暗黙的なリスク行動の促進など,ドメイン固有の敵戦術に弱いままであることが明らかとなった。
- 参考スコア(独自算出の注目度): 26.601098750859048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing use of large language models (LLMs) in mental healthcare raises safety concerns in high-stakes therapeutic interactions. A key challenge is distinguishing therapeutic empathy from maladaptive validation, where supportive responses may inadvertently reinforce harmful beliefs or behaviors in multi-turn conversations. This risk is largely overlooked by existing red-teaming frameworks, which focus mainly on generic harms or optimization-based attacks. To address this gap, we introduce Personality-based Client Simulation Attack (PCSA), the first red-teaming framework that simulates clients in psychological counseling through coherent, persona-driven client dialogues to expose vulnerabilities in psychological safety alignment. Experiments on seven general and mental health-specialized LLMs show that PCSA substantially outperforms four competitive baselines. Perplexity analysis and human inspection further indicate that PCSA generates more natural and realistic dialogues. Our results reveal that current LLMs remain vulnerable to domain-specific adversarial tactics, providing unauthorized medical advice, reinforcing delusions, and implicitly encouraging risky actions.
- Abstract(参考訳): メンタルヘルスにおける大規模言語モデル(LLM)の利用の増加は、高い治療相互作用における安全性の懸念を提起する。
主要な課題は、多面的な会話において有害な信念や行動が必然的に強化されるような、不適応な検証から治療的共感を区別することである。
このリスクは、主に一般的な害や最適化ベースの攻撃に焦点を当てた、既存のレッドチームフレームワークによって見落とされがちだ。
このギャップに対処するために、我々はPersonality-based Client Simulation Attack (PCSA)を導入した。これは、心理的安全性アライメントにおける脆弱性を明らかにするために、コヒーレントでペルソナ駆動のクライアント対話を通じて、心理的カウンセリングにおいてクライアントをシミュレートする最初の赤チームフレームワークである。
7つの総合的・精神的に専門化されたLSMの実験では、PCSAは4つの競争基準線を大幅に上回っている。
パープレキシティ分析と人間の検査は、PCSAがより自然でリアルな対話を生成することを示している。
以上の結果から,現在の LLM は,未承認の医療アドバイスの提供,妄想の強化,暗黙的なリスク行動の促進など,ドメイン固有の敵戦術に弱いままであることが明らかとなった。
関連論文リスト
- Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming [23.573537738272595]
本稿では,AI心理療法士と認知影響モデルを備えた模擬患者エージェントを併用する評価フレームワークを提案する。
我々は、この枠組みを6つのAIエージェントを評価する、高インパクトなテストケースであるアルコール使用障害に適用する。
大規模なシミュレーションでは、メンタルヘルス支援にAIを使用する場合、重大な安全性のギャップが明らかになっている。
論文 参考訳(メタデータ) (2026-02-23T15:17:18Z) - MindGuard: Guardrail Classifiers for Multi-Turn Mental Health Support [9.430938712127231]
汎用セーフガードは、治療的開示と真の臨床上の危機を区別することができない。
本稿では,PhDレベルの心理学者と共同で開発されたリスク分類法について紹介する。
MindGuard-testsetは,臨床専門家が注釈を付けた実世界のマルチターン会話のデータセットである。
論文 参考訳(メタデータ) (2026-02-01T01:03:20Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - MIRROR: Multimodal Cognitive Reframing Therapy for Rolling with Resistance [33.081670638470165]
我々は、非言語的な手がかりを取り入れたマルチモーダルアプローチを提案し、AIセラピストは、クライアントのネガティブな感情状態に応答をより良く整合させることができる。
具体的には、新しい合成データセットであるMirrorを導入し、クライアントのステートメントと対応する顔画像とをペアリングする新しい合成データセットについて紹介する。
その結果、MirrorはAIセラピストの抵抗処理能力を大幅に向上させ、既存のテキストベースのCBTアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-16T08:44:26Z) - EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety [42.052840895090284]
EmoAgentは、人間とAIのインタラクションにおけるメンタルヘルスハザードの評価と緩和を目的とした、マルチエージェントAIフレームワークである。
EmoEvalは、精神的に脆弱な個人を含む仮想ユーザをシミュレートして、AI文字との対話前後のメンタルヘルスの変化を評価する。
EmoGuardは仲介役として機能し、ユーザーのメンタルステータスを監視し、潜在的な害を予測し、リスクを軽減するための修正的なフィードバックを提供する。
論文 参考訳(メタデータ) (2025-04-13T18:47:22Z) - Roleplay-doh: Enabling Domain-Experts to Create LLM-simulated Patients via Eliciting and Adhering to Principles [58.82161879559716]
ドメインエキスパートから定性的なフィードバックを引き出す新しい人間-LLMコラボレーションパイプラインであるRoleplay-dohを開発した。
このパイプラインを適用して、シニアメンタルヘルスサポーターが、シミュレートされた実践パートナのためにカスタマイズされたAI患者を作成できるようにします。
論文 参考訳(メタデータ) (2024-07-01T00:43:02Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。