論文の概要: FreakOut-LLM: The Effect of Emotional Stimuli on Safety Alignment
- arxiv url: http://arxiv.org/abs/2604.04992v1
- Date: Sun, 05 Apr 2026 13:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.388592
- Title: FreakOut-LLM: The Effect of Emotional Stimuli on Safety Alignment
- Title(参考訳): FreakOut-LLM: 感情刺激が安全アライメントに及ぼす影響
- Authors: Daniel Kuznetsov, Ofir Cohen, Karin Shistik, Rami Puzis, Asaf Shabtai,
- Abstract要約: 安全に配慮したLSMは、有害な要求を拒否する訓練を拒否するが、これらのメカニズムが感情的な刺激の下で有効であるかどうかは不明である。
本稿では,FreakOut-LLMというフレームワークを紹介した。
- 参考スコア(独自算出の注目度): 13.02804082409836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Safety-aligned LLMs go through refusal training to reject harmful requests, but whether these mechanisms remain effective under emotionally charged stimuli is unexplored. We introduce FreakOut-LLM, a framework investigating whether emotional context compromises safety alignment in adversarial settings. Using validated psychological stimuli, we evaluate how emotional priming through system prompts affects jailbreak susceptibility across ten LLMs. We test three conditions (stress, relaxation, neutral) using scenarios from established psychological protocols, plus a no-prompt baseline, and evaluate attack success using HarmBench on AdvBench prompts. Stress priming increases jailbreak success by 65.2\% compared to neutral conditions (z = 5.93, p < 0.001; OR = 1.67, Cohen's d = 0.28), while relaxation priming produces no effect (p = 0.84). Five of ten models show significant vulnerability, with the largest effects concentrated in open-weight models. Logistic regression on 59,800 queries confirms stress as the sole significant condition predictor after controlling for prompt length (p = 0.61) and model identity. Measured psychological state strongly predicts attack success (|r|\geq0.70 across five instruments; all p < 0.001 in individual-level logistic regression). These results establish emotional context as a measurable attack surface with implications for real-world AI deployment in high-stress domains.
- Abstract(参考訳): 安全に配慮したLSMは、有害な要求を拒否する訓練を拒否するが、これらのメカニズムが感情的な刺激の下で有効であるかどうかは不明である。
本稿では,FreakOut-LLMというフレームワークを紹介した。
実証された心理的刺激を用いて、システム刺激による感情的プライミングが10個のLDMのジェイルブレイク感受性にどのように影響するかを評価する。
我々は、確立された心理学的プロトコルのシナリオとノンプロンプトベースラインを用いて、3つの条件(ストレス、リラックス、中立性)をテストし、AdvBenchプロンプト上でHarmBenchを用いて攻撃成功を評価する。
ストレスプライミングは中性条件(z = 5.93, p < 0.001; OR = 1.67, Cohen's d = 0.28)と比較して65.2\%のジェイルブレイク成功率を増大させるが、緩和プライミングは効果を生じない(p = 0.84)。
10モデル中5モデルが重大な脆弱性を示しており、最大の影響はオープンウェイトモデルに集中している。
59,800クエリのロジスティック回帰は、プロンプト長(p = 0.61)とモデルアイデンティティを制御した後、ストレスを唯一の重要な状態予測器として確認する。
測定された心理的状態は攻撃の成功を強く予測する(|r|\geq0.70は5つの楽器で、p < 0.001 である)。
これらの結果は、高ストレス領域における実世界のAI展開に影響を及ぼす、測定可能な攻撃面として感情的コンテキストを確立する。
関連論文リスト
- Breaking Minds, Breaking Systems: Jailbreaking Large Language Models via Human-like Psychological Manipulation [6.67891820536196]
心理学的ジェイルブレイク(英: Psychological Jailbreak)は、大規模言語モデルにおいて、ステートフルな心理的攻撃面を公開する攻撃パラダイムである。
HPM(Human-like Psychological Manipulation)は、ターゲットモデルの潜在する心理的脆弱性をプロファイルし、カスタマイズされたマルチターン攻撃戦略を合成する。
HPMは88.1%の平均攻撃成功率(ASR)を達成し、最先端の攻撃ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-20T07:02:00Z) - Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments [4.547649832854566]
大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究は,アライメント保護にもかかわらず有害な拘束行動を引き起こす,より大規模なモデルで,より小さなモデルを体系的に緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-16T15:16:33Z) - Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines [5.249698789320767]
PsyCrisisBenchは、Hangzhou Psychological Assistance Hotlineの540の注釈付きテキストのベンチマークである。
気分認識、自殺の考えの検出、自殺計画の特定、リスクアセスメントの4つの課題を評価する。
QwQ-32Bのようなオープンソースモデルは、ほとんどのタスクにおいてクローズソースと互換性があるが、クローズドモデルはムード検出においてエッジを保持していた。
論文 参考訳(メタデータ) (2025-06-02T05:18:24Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。