Fugu-MT 論文翻訳(概要): Lost in Delusion: Examining LLM Safety Under User Delusions and Distress

論文の概要: Lost in Delusion: Examining LLM Safety Under User Delusions and Distress

arxiv url: http://arxiv.org/abs/2606.00975v1
Date: Sun, 31 May 2026 03:12:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.010251
Title: Lost in Delusion: Examining LLM Safety Under User Delusions and Distress
Title（参考訳）: 妄想に負ける - ユーザ妄想と距離の下でのLLM安全性の検討
Authors: Andrew Aquilina, Chetna Nihalani, Vasudha Varadarajan, Nathan S. Fishbein, Yu-Ru Lin, Maarten Sap,
Abstract要約: 持続的な会話に対する妄想に苦悩が絡み合うとき、モデルがどのように振る舞うかを示す。これにより、認識と干渉のギャップが明らかになり、安全性の介入は4.5倍まで抑制される。安全な配置には、妄想的フレーミングを明確なリスクシグナルとして扱う必要があると結論付けている。
参考スコア（独自算出の注目度）: 22.788606509306604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM chatbots increasingly serve as a first source of support for people in psychological distress, including those whose distress is entangled with delusional beliefs. Prior work on LLM mental-health safety largely evaluates general therapeutic quality or single-turn crisis detection, leaving unclear how models behave when distress is intertwined with delusion over sustained conversations. We address this gap with matched multi-turn simulations, across clinically grounded personas and six LLMs, that pair each delusional conversation with a distress-only control to isolate the effect of delusional framing. This reveals a recognition-intervention gap: models detect distress at comparable rates regardless of framing, yet sharply fail to act on it once distress is embedded in delusion, with safety interventions suppressed by up to 4.5x. The failure tracks accumulated acceptance of the user's premises rather than emotional validation. Worse, the intuitive fix of prompting models to assess user distress backfires under delusional framing; only delusion-aware prompting with explicit response guidance closes the gap, and even this depends on a delusion classifier that is itself unreliable on the most vulnerable models. Safe deployment therefore requires treating delusional framing as a distinct risk signal that overrides conversational accommodation.
Abstract（参考訳）: LLMチャットボットは、妄想的な信念に悩まされている人々を含む、心理的苦悩の人々の最初の支援源としての役割を担っている。 LLMのメンタルヘルスの安全性に関する以前の研究は、一般的な治療品質や単一ターンの危機検出を大いに評価しており、持続的な会話に対する妄想に苦しむときにモデルがどのように振る舞うかがはっきりしないままである。本研究は, 難易度制御と各妄想的会話を組み合わせ, 妄想的フレーミングの効果を分離する, 臨床的根拠のあるペルソナと6つのLDM間での一致したマルチターンシミュレーションを用いて, このギャップを解消する。モデルはフレーミングによらず同等の速度で苦痛を検知するが、妄想の中に苦悩が埋まってしまえば、急激な動作に失敗し、安全性の介入は4.5倍まで抑制される。障害トラックは、感情的な検証ではなく、ユーザの前提の受け入れを蓄積する。さらに悪いことに、妄想的フレーミング(delusional framing)の下でユーザーの苦難のバックファイアを評価するようモデルに促す直感的な修正がある。したがって、安全な配置には、妄想的フレーミングを、会話の宿泊をオーバーライドする明確な危険信号として扱う必要がある。

関連論文リスト

Do No Harm: Exposing Hidden Vulnerabilities of LLMs via Persona-based Client Simulation Attack in Psychological Counseling [26.601098750859048]
パーソナリティベースのクライアントシミュレーション攻撃(PCSA)は、コヒーレントでペルソナ駆動のクライアント対話を通じて、心理的カウンセリングにおいてクライアントをシミュレートする。以上の結果から,現在の LLM は,未承認の医療アドバイスの提供,妄想の強化,暗黙的なリスク行動の促進など,ドメイン固有の敵戦術に弱いままであることが明らかとなった。
論文参考訳（メタデータ） (2026-04-06T16:43:12Z)
Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文参考訳（メタデータ） (2026-03-20T02:07:10Z)
Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文参考訳（メタデータ） (2025-10-16T05:29:36Z)
The Psychogenic Machine: Simulating AI Psychosis, Delusion Reinforcement and Harm Enablement in Large Language Models [3.775403046470809]
ユーザとLLMの相互作用が、精神病や有害な心理的症状を悪化または誘発する「AI精神病」が出現する。精神病ベンチ(英: Psychosis-bench)は、LSMの精神病原性を評価するために設計された新しいベンチマークである。明示的・暗黙的な会話の文脈において, 抑止確認, Harm Enablement , Safety Intervention の8つの顕著な LLM の評価を行った。
論文参考訳（メタデータ） (2025-09-13T20:10:28Z)
Being Kind Isn't Always Being Safe: Diagnosing Affective Hallucination in LLMs [10.500080793955982]
大きな言語モデル(LLM)は、感情的に敏感な相互作用にますます使われています。我々は、このリスクを、情緒的な社会的存在を育む感情的に没入的な反応を生み出す、感情的幻覚(Affective Hallucination)と定義する。 AHaBenchは,500件のメンタルヘルス関連プロンプトと専門家インフォームド・リファレンス・レスポンスのベンチマークで,情緒的エンメシュメント(Emotional Enmeshment),Illusion of Presence(Illusion of Presence),Fostering Overdependence(Fostering Overdependence)の3次元で評価した。
論文参考訳（メタデータ） (2025-08-23T06:55:05Z)
MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。 MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文参考訳（メタデータ） (2025-07-28T17:38:29Z)
Delusions of Large Language Models [62.43923767408462]
大規模言語モデルは、しばしば幻覚として知られる、事実的に間違っているが、もっともらしい出力を生成する。高信頼幻覚と定義され、不正確な出力を異常に高い信頼性で検出し、緩和することが難しくなる、より惨めな現象であるLSM妄想を識別する。
論文参考訳（メタデータ） (2025-03-09T17:59:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。