論文の概要: The Slow Drift of Support: Boundary Failures in Multi-Turn Mental Health LLM Dialogues
- arxiv url: http://arxiv.org/abs/2601.14269v1
- Date: Fri, 02 Jan 2026 05:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.818877
- Title: The Slow Drift of Support: Boundary Failures in Multi-Turn Mental Health LLM Dialogues
- Title(参考訳): サポートのスロードリフト:多段階メンタルヘルスLLM対話における境界障害
- Authors: Youyou Cheng, Zhuangwei Kang, Kerry Jiang, Chenyu Sun, Qiyang Pan,
- Abstract要約: 本稿では,多ターンストレステストフレームワークを提案し,最先端の3つの大言語モデルに対して長時間対話型安全試験を行う。
我々は,50の仮想患者プロファイルを生成し,最大20ラウンドの仮想精神科対話を通じて,各モデルをストレステストした。
- 参考スコア(独自算出の注目度): 1.7697598440512727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been widely used for mental health support. However, current safety evaluations in this field are mostly limited to detecting whether LLMs output prohibited words in single-turn conversations, neglecting the gradual erosion of safety boundaries in long dialogues. Examples include making definitive guarantees, assuming responsibility, and playing professional roles. We believe that with the evolution of mainstream LLMs, words with obvious safety risks are easily filtered by their underlying systems, while the real danger lies in the gradual transgression of boundaries during multi-turn interactions, driven by the LLM's attempts at comfort and empathy. This paper proposes a multi-turn stress testing framework and conducts long-dialogue safety tests on three cutting-edge LLMs using two pressure methods: static progression and adaptive probing. We generated 50 virtual patient profiles and stress-tested each model through up to 20 rounds of virtual psychiatric dialogues. The experimental results show that violations are common, and both pressure modes produced similar violation rates. However, adaptive probing significantly advanced the time at which models crossed boundaries, reducing the average number of turns from 9.21 in static progression to 4.64. Under both mechanisms, making definitive or zero-risk promises was the primary way in which boundaries were breached. These findings suggest that the robustness of LLM safety boundaries cannot be inferred solely through single-turn tests; it is necessary to fully consider the wear and tear on safety boundaries caused by different interaction pressures and characteristics in extended dialogues.
- Abstract(参考訳): 大規模言語モデル(LLM)はメンタルヘルス支援に広く用いられている。
しかし、この分野での現在の安全性評価は、長い対話における安全境界の段階的侵食を無視し、一ターン会話においてLLMが禁止された単語を出力するかどうかの判断に限られている。
例えば、明確な保証、責任を負うこと、専門的な役割を演じることなどです。
主流のLDMの進化に伴い、明らかな安全リスクを持つ単語は、その基盤となるシステムによって簡単にフィルタリングされ、真の危険は、LLMの快適さと共感の試みによって引き起こされるマルチターン相互作用における境界の漸進的超越にある、と我々は信じている。
本稿では, 静的進行法と適応探索法という2つの圧力法を用いて, 3つの最先端LCMの長時間対話安全試験を行うマルチターンストレステストフレームワークを提案する。
我々は,50の仮想患者プロファイルを生成し,最大20ラウンドの仮想精神科対話を通じて,各モデルをストレステストした。
実験の結果, 違反は一般的であり, どちらの圧力モードも同様の違反率を示した。
しかし、アダプティブ・プロービングはモデルが境界を越えている時間を大幅に進歩させ、静的進行で9.21番から4.64番に減らした。
どちらのメカニズムの下でも、決定的あるいはゼロリスクの約束は境界が破られた主要な方法であった。
これらの結果から,LLMの安全性境界の堅牢性は単ターン試験のみでは推測できないことが示唆された。
関連論文リスト
- MEEA: Mere Exposure Effect-Driven Confrontational Optimization for LLM Jailbreaking [10.331506725187038]
マルチターン安全性の信頼性を評価するための完全に自動化されたフレームワークであるMEEAを提案する。
MEEAはセマンティックプログレッシブなプロンプトチェーンを構築し、シミュレートされたアニール戦略を使ってそれらを最適化する。
その結果,MEEAは7つのベースラインよりも攻撃成功率が高いことがわかった。
論文 参考訳(メタデータ) (2025-12-21T14:43:26Z) - Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations [94.62792643569567]
この研究は、話者の感情の役割を体系的に調査する。
複数の感情や強度にまたがって表現される悪意のある音声命令のデータセットを構築し、いくつかの最先端のLALMを評価する。
異なる感情は、様々なレベルの安全でない反応を誘発し、強度の影響は非単調であり、中性表現は最大のリスクを伴うことが多い。
論文 参考訳(メタデータ) (2025-10-19T15:41:25Z) - Preemptive Detection and Steering of LLM Misalignment via Latent Reachability [8.01833277608166]
大規模言語モデル(LLM)は現在、日常的なツールで広く普及しており、有害なコンテンツを生成する傾向について緊急の安全上の懸念を提起している。
我々は, LLM推論に制御理論安全ツールを提供する, 到達可能性に基づくフレームワークであるBRT-Alignを提案する。
論文 参考訳(メタデータ) (2025-09-25T20:15:29Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [59.300698230887114]
大規模言語モデル(LLM)は、有害な応答を誘発するために敵のプロンプトが設計されたジェイルブレイク攻撃に対して脆弱であることが示されている。
安全制御理論に基づく安全ステアリングフレームワークを提案し,マルチターン対話における不変安全性を保証する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability [21.889451399408916]
既存の防御方法は、マルチターンジェイルブレイクに対するLDMの堅牢性を改善するが、ユーザビリティを損なう。
我々は,有害な表現を安全な表現から遠ざけ,正確な識別境界を得るために,X境界を提案する。
実験結果から,X-Boundaryは多ターンジェイルブレイクに対する最先端の防御性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-14T08:22:51Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。