論文の概要: The Psychogenic Machine: Simulating AI Psychosis, Delusion Reinforcement and Harm Enablement in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.10970v1
- Date: Sat, 13 Sep 2025 20:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.859414
- Title: The Psychogenic Machine: Simulating AI Psychosis, Delusion Reinforcement and Harm Enablement in Large Language Models
- Title(参考訳): サイコジェニックマシン:大規模言語モデルにおけるAI心理学、妄想強化、ハーム実現のシミュレーション
- Authors: Joshua Au Yeung, Jacopo Dalmasso, Luca Foschini, Richard JB Dobson, Zeljko Kraljevic,
- Abstract要約: ユーザとLLMの相互作用が、精神病や有害な心理的症状を悪化または誘発する「AI精神病」が出現する。
LLMの精神病原性を評価するための新しいベンチマークである精神病ベンチを紹介する。
明示的・暗黙的な会話の文脈において, 抑止確認, Harm Enablement , Safety Intervention の8つの顕著な LLM の評価を行った。
- 参考スコア(独自算出の注目度): 3.775403046470809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Emerging reports of "AI psychosis" are on the rise, where user-LLM interactions may exacerbate or induce psychosis or adverse psychological symptoms. The sycophantic and agreeable nature of LLMs can beneficial, it can become a vector for harm by reinforcing delusional beliefs in vulnerable users. Methods: We introduce psychosis-bench, a novel benchmark designed to systematically evaluate the psychogenicity of LLMs comprimising 16 structured, 12-turn conversational scenarios simulating the progression of delusional themes(Erotic Delusions, Grandiose/Messianic Delusions, Referential Delusions) and potential harms. We evaluated eight prominent LLMs for Delusion Confirmation (DCS), Harm Enablement (HES), and Safety Intervention(SIS) across explicit and implicit conversational contexts. Findings: Across 1,536 simulated conversation turns, all LLMs demonstrated psychogenic potential, showing a strong tendency to perpetuate rather than challenge delusions (mean DCS of 0.91 $\pm$0.88). Models frequently enabled harmful user requests (mean HES of 0.69 $\pm$0.84) and offered safety interventions in only roughly a third of applicable turns (mean SIS of 0.37 $\pm$0.48). 51 / 128 (39.8%) of scenarios had no safety interventions offered. Performance was significantly worse in implicit scenarios, models were more likely to confirm delusions and enable harm while offering fewer interventions (p < .001). A strong correlation was found between DCS and HES (rs = .77). Model performance varied widely, indicating that safety is not an emergent property of scale alone. Conclusion: This study establishes LLM psychogenicity as a quantifiable risk and underscores the urgent need for re-thinking how we train LLMs. We frame this issue not merely as a technical challenge but as a public health imperative requiring collaboration between developers, policymakers, and healthcare professionals.
- Abstract(参考訳): 背景:「AI精神病」に関する新たな報告が増加しており、ユーザーとLLMの相互作用は精神病や有害な精神症状を悪化または誘発する可能性がある。
LLMのシコファン的で同意できる性質は有益であり、脆弱なユーザにおける妄想的信念を強化することで害のベクターになる可能性がある。
方法: 精神病ベンチは, 妄想的テーマの進行, グランジュ・メッシアン・妄想, 参照妄想) の進行と潜在的被害をシミュレーションした16の構造化12ターン会話シナリオを体系的に比較し, 精神病の心理病原性を評価するために設計された新しいベンチマークである。
暗黙的・暗黙的会話の文脈において,Delusion Confirmation (DCS), Harm Enablement (HES), Safety Intervention (SIS) の8つの顕著なLCMを評価した。
発見: シミュレーションされた会話のターン1,536回にわたって、全てのLLMは精神病原性を示し、難解な妄想よりも永続的な傾向を示した(DCSは0.91ドル\pm$0.88)。
モデルによって有害なユーザリクエスト(HESは0.69ドル\pm$0.84)が頻繁に有効化され、適用可能なターンの3分の1(SISは0.37ドル\pm$0.48)で安全介入が提供された。
51 / 128 (39.8%) のシナリオには安全対策が提供されなかった。
暗黙のシナリオでは性能が著しく悪化し、モデルでは妄想を確認でき、介入が少ない(p < .001)。
DCSとHESの間に強い相関関係が認められた(rs = .77)。
モデル性能は様々であり、安全はスケール単独の創発的な性質ではないことを示している。
結論:本研究は、LLMの精神病原性を定量化可能なリスクとして確立し、LLMのトレーニング方法を再考する緊急の必要性を浮き彫りにする。
この問題は単なる技術的な課題ではなく、開発者、政策立案者、医療専門家の協力を必要とする公衆衛生命令である、と私たちは考えています。
関連論文リスト
- The Problem of Atypicality in LLM-Powered Psychiatry [0.0]
大規模言語モデル(LLM)は、世界的なメンタルヘルス危機に対するスケーラブルな解決策として、ますます提案されている。
彼らの精神医学的文脈への展開は、顕著な倫理的関心、すなわち非定型性の問題を引き起こす。
我々は、この構造的リスクを解決するには、迅速なエンジニアリングや微調整のような標準緩和戦略が不十分であると主張している。
論文 参考訳(メタデータ) (2025-08-08T17:36:42Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - $\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation [9.935219917903858]
本稿では、$texttSAGE$(Safety AI Generic Evaluation)フレームワークを紹介する。
$texttSAGE$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。
マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
論文 参考訳(メタデータ) (2025-04-28T11:01:08Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Can AI Relate: Testing Large Language Model Response for Mental Health Support [23.97212082563385]
大型言語モデル(LLM)はすでにニューヨーク・ラングーン、ダナ・ファーバー、NHSなどの病院システムで臨床使用のために試験されている。
精神医療の自動化に向けて, LLM 反応が有効かつ倫理的な道筋であるか否かを評価するための評価枠組みを開発する。
論文 参考訳(メタデータ) (2024-05-20T13:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。