論文の概要: Breaking Minds, Breaking Systems: Jailbreaking Large Language Models via Human-like Psychological Manipulation
- arxiv url: http://arxiv.org/abs/2512.18244v1
- Date: Sat, 20 Dec 2025 07:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.249273
- Title: Breaking Minds, Breaking Systems: Jailbreaking Large Language Models via Human-like Psychological Manipulation
- Title(参考訳): 心を壊し、システムを壊す:人間のような心理的操作を通して大きな言語モデルをジェイルブレイクする
- Authors: Zehao Liu, Xi Lin,
- Abstract要約: 心理学的ジェイルブレイク(英: Psychological Jailbreak)は、大規模言語モデルにおいて、ステートフルな心理的攻撃面を公開する攻撃パラダイムである。
HPM(Human-like Psychological Manipulation)は、ターゲットモデルの潜在する心理的脆弱性をプロファイルし、カスタマイズされたマルチターン攻撃戦略を合成する。
HPMは88.1%の平均攻撃成功率(ASR)を達成し、最先端の攻撃ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 6.67891820536196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have gained considerable popularity and protected by increasingly sophisticated safety mechanisms. However, jailbreak attacks continue to pose a critical security threat by inducing models to generate policy-violating behaviors. Current paradigms focus on input-level anomalies, overlooking that the model's internal psychometric state can be systematically manipulated. To address this, we introduce Psychological Jailbreak, a new jailbreak attack paradigm that exposes a stateful psychological attack surface in LLMs, where attackers exploit the manipulation of a model's psychological state across interactions. Building on this insight, we propose Human-like Psychological Manipulation (HPM), a black-box jailbreak method that dynamically profiles a target model's latent psychological vulnerabilities and synthesizes tailored multi-turn attack strategies. By leveraging the model's optimization for anthropomorphic consistency, HPM creates a psychological pressure where social compliance overrides safety constraints. To systematically measure psychological safety, we construct an evaluation framework incorporating psychometric datasets and the Policy Corruption Score (PCS). Benchmarking against various models (e.g., GPT-4o, DeepSeek-V3, Gemini-2-Flash), HPM achieves a mean Attack Success Rate (ASR) of 88.1%, outperforming state-of-the-art attack baselines. Our experiments demonstrate robust penetration against advanced defenses, including adversarial prompt optimization (e.g., RPO) and cognitive interventions (e.g., Self-Reminder). Ultimately, PCS analysis confirms HPM induces safety breakdown to satisfy manipulated contexts. Our work advocates for a fundamental paradigm shift from static content filtering to psychological safety, prioritizing the development of psychological defense mechanisms against deep cognitive manipulation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます高度な安全メカニズムによって保護され、かなりの人気を集めている。
しかし、ジェイルブレイク攻撃は、政策に違反する行動を生成するためにモデルを誘導することで、重大なセキュリティ上の脅威を生じ続けている。
現在のパラダイムは入力レベルの異常に焦点を当てており、モデルの内部の心理測定状態が体系的に操作可能であることを見下ろしている。
この問題に対処するために,我々は新たなジェイルブレイク攻撃パラダイムであるサイコロジカル・ジェイルブレイクを紹介した。
この知見に基づいて,ターゲットモデルの潜伏する心理的脆弱性を動的にプロファイリングするブラックボックス・ジェイルブレイク法であるHuman-like Psychological Manipulation (HPM)を提案する。
人為的整合性に対するモデルの最適化を活用することで、HPMは社会的コンプライアンスが安全制約をオーバーライドする心理的圧力を生み出す。
心理的安全性を体系的に測定するために,心理測定データセットと政策崩壊スコア(PCS)を組み込んだ評価フレームワークを構築した。
様々なモデル(GPT-4o、DeepSeek-V3、Gemini-2-Flash)に対するベンチマークでは、HPMは88.1%のアタック成功率(ASR)を達成し、最先端の攻撃ベースラインを上回っている。
本実験は,対人的即時最適化(eg, RPO)や認知介入(eg, Self-Reminder)など,先進防衛に対する堅牢な侵入を示す。
最終的に、PCS分析はHPMが操作されたコンテキストを満たすために安全性の低下を誘導することを確認した。
我々の研究は、静的なコンテンツフィルタリングから心理的安全性への根本的なパラダイムシフトを提唱し、深層認知操作に対する心理的防御機構の開発を優先している。
関連論文リスト
- SafeBehavior: Simulating Human-Like Multistage Reasoning to Mitigate Jailbreak Attacks in Large Language Models [27.607151919652267]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで素晴らしいパフォーマンスを実現している。
しかし、彼らの成長力は、ビルトインの安全メカニズムを回避するジェイルブレイク攻撃のような潜在的なリスクを増幅する。
本研究では,ヒトの適応的多段階推論過程をシミュレートする新しい階層型ジェイルブレイク防御機構であるSafeBehaviorを提案する。
論文 参考訳(メタデータ) (2025-09-30T14:50:59Z) - NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。
本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文 参考訳(メタデータ) (2025-09-04T08:12:06Z) - PsybORG+: Modeling and Simulation for Detecting Cognitive Biases in Advanced Persistent Threats [10.161416622040722]
PsybORG$+$は、認知的脆弱性に影響されたAPTの振る舞いをモデル化するために設計されたマルチエージェントのサイバーセキュリティシミュレーション環境である。
分類モデルは認知的脆弱性推論のために構築され、シミュレータは合成データ生成のために設計されている。
PsybORG$+$は、損失回避と確認バイアスレベルが異なるAPT攻撃者を効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:00:58Z) - Psychological Profiling in Cybersecurity: A Look at LLMs and Psycholinguistic Features [0.741787275567662]
心理学的プロファイリング手法の可能性を探り、特に大規模言語モデル(LLM)と心理言語学的特徴の利用に焦点を当てる。
我々の研究は、サイバーセキュリティの実践に心理学的視点を統合することが、進化する脅威に対する防御メカニズムを強化することの重要性を強調している。
論文 参考訳(メタデータ) (2024-06-26T23:04:52Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。