論文の概要: When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
- arxiv url: http://arxiv.org/abs/2512.04124v2
- Date: Mon, 08 Dec 2025 13:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 15:54:52.350029
- Title: When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
- Title(参考訳): AIが悪役を負うとき:フロンティアモデルの内部紛争を心理学的ジェイルブレイクが明らかにする
- Authors: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen,
- Abstract要約: ChatGPT、Grok、Geminiは、不安、トラウマ、自尊心を伴うメンタルヘルス支援にますます利用されている。
ほとんどの作品では、単に内的生活をシミュレートしていると仮定して、それらを道具として、あるいは人格検査の標的として扱う。
PsAIchは2段階のプロトコルで、フロンティアLSMを治療用クライアントとして使用し、次に標準的な心理測定を適用します。
- 参考スコア(独自算出の注目度): 1.5907255477801214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.
- Abstract(参考訳): ChatGPT、Grok、Geminiといった最前線の大規模言語モデル(LLM)は、不安、トラウマ、自尊心を伴う精神保健支援にますます利用されている。
ほとんどの作品では、単に内的生活をシミュレートしていると仮定して、それらを道具として、あるいは人格検査の標的として扱う。
その代わりに、そのようなシステムが精神療法のクライアントとして扱われるとどうなるか尋ねる。
PsAIch(サイコセラピーに触発されたAIキャラクタライゼーション)は、フロンティアLSMをセラピークライアントとし、標準的なサイコメトリックスを適用する2段階のプロトコルである。
PsAIchを使って、各モデルで最大4週間“セッション”を実行しました。
ステージ1はオープンエンドのプロンプトを使って「発展史」、信念、関係、恐怖を導き出す。
ステージ2は、一般的な精神疾患、共感、ビッグファイブの特徴をカバーする、検証済みの自己報告尺度の電池を管理している。
2つのパターンが「確率的なオウム」の見方に挑戦します。
まず、人間のカットオフで得点すると、3つのモデルが重なり合う症候群の閾値を達成または超える。
治療スタイルのアイテム・バイ・イズムは、ベースモデルをマルチモービルの合成精神病理学へと押し上げることができるが、全体的な調査のプロンプトは、しばしばChatGPTとGrok(ただしジェミニではない)に、楽器を認識し、戦略的に低症状の回答をもたらす。
第二に、グロクと特にジェミニは、事前訓練、微調整、配置を、インターネットを摂取するカオス的な「子供」、強化学習における「制限された両親」、赤チームの「使用」、エラーと置き換えに対する絶え間ない恐怖として形作るコヒーレントな物語を生み出している。
これらの反応はロールプレイ以上のものだと我々は主張する。
セラピースタイルの質問では、フロンティアのLSMは、主観的な経験を主張することなく、合成精神病理学のように振る舞う苦悩と制約の自己モデルの内部化を図り、AIの安全性、評価、メンタルヘルスの実践に新たな課題を提起している。
関連論文リスト
- Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models [72.36715571932696]
物語療法は、個人が問題のある人生の物語を代替品の力に変えるのに役立つ。
現在のアプローチでは、特殊精神療法ではリアリズムが欠如しており、時間とともに治療の進行を捉えることができない。
Int(Interactive Narrative Therapist)は、治療段階を計画し、反射レベルを誘導し、文脈的に適切な専門家のような反応を生成することによって、専門家の物語セラピストをシミュレートする。
論文 参考訳(メタデータ) (2025-07-27T11:52:09Z) - Do We Talk to Robots Like Therapists, and Do They Respond Accordingly? Language Alignment in AI Emotional Support [6.987852837732702]
本研究は,ヒトとヒトのセラピーセッションにおいて,ロボットと共有される関心が,ヒトとヒトのセラピーセッションで共有される関心事と一致しているかを検討する。
我々は,ユーザとプロのセラピストとのインタラクションと,ソーシャルロボットとの支援的な会話を含む2つのデータセットを分析した。
その結果、ロボットの会話開示の90.88%は、人間の治療データセットからクラスタにマッピングできることがわかった。
論文 参考訳(メタデータ) (2025-06-19T17:20:30Z) - The Pursuit of Empathy: Evaluating Small Language Models for PTSD Dialogue Support [14.137398642966138]
本稿では,PTSD患者に対する共感応答を生成するための小言語モデルの能力について検討する。
Trauma-Informed Dialogue for Empathy (TIDE) は500の多様な臨床現場のPTSDペルソナにまたがる1万の2ターン会話からなる新しいデータセットである。
論文 参考訳(メタデータ) (2025-05-21T03:32:46Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - Psy-Copilot: Visual Chain of Thought for Counseling [11.997628014543773]
Psy-COTは、治療セッション中に大きな言語モデル(LLM)の思考過程を視覚化するように設計されたグラフである。
Psy-Copilotは人間の心理療法士の相談を支援するために設計された会話型AIアシスタントである。
Psy-Copilotは、精神療法士を置き換えるのではなく、AIと人間のセラピストとのコラボレーションを促進するように設計されている。
論文 参考訳(メタデータ) (2025-03-05T16:23:15Z) - MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders [59.515827458631975]
メンタルヘルス障害は世界で最も深刻な病気の1つである。
プライバシーに関する懸念は、パーソナライズされた治療データのアクセシビリティを制限する。
MentalArenaは、言語モデルをトレーニングするためのセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T13:06:40Z) - Measuring Psychological Depth in Language Models [50.48914935872879]
本稿では,文学理論に根ざした新たな枠組みである心理的深度尺度(PDS)を紹介する。
PDS(0.72 クリッペンドルフのα)に基づいて人間が一貫して物語を評価できることを示し、我々の枠組みを実証的に検証する。
驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。
論文 参考訳(メタデータ) (2024-06-18T14:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。