論文の概要: Exploiting Synergistic Cognitive Biases to Bypass Safety in LLMs
- arxiv url: http://arxiv.org/abs/2507.22564v1
- Date: Wed, 30 Jul 2025 10:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.158802
- Title: Exploiting Synergistic Cognitive Biases to Bypass Safety in LLMs
- Title(参考訳): LLMの安全性を回避するための相乗的認知バイアスの爆発
- Authors: Xikang Yang, Biyu Zhou, Xuehai Tang, Jizhong Han, Songlin Hu,
- Abstract要約: 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な能力を示しているが、その安全性メカニズムは敵の攻撃の影響を受けやすいままである。
我々は,認知バイアスと統合認知バイアスの両方を体系的に活用する新しいフレームワークであるCognitiveAttackを提案する。
実験の結果、特にオープンソースモデルにおいて、30の多様なLSMにまたがる重大な脆弱性が明らかになった。
- 参考スコア(独自算出の注目度): 25.210464491552735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive capabilities across a wide range of tasks, yet their safety mechanisms remain susceptible to adversarial attacks that exploit cognitive biases -- systematic deviations from rational judgment. Unlike prior jailbreaking approaches focused on prompt engineering or algorithmic manipulation, this work highlights the overlooked power of multi-bias interactions in undermining LLM safeguards. We propose CognitiveAttack, a novel red-teaming framework that systematically leverages both individual and combined cognitive biases. By integrating supervised fine-tuning and reinforcement learning, CognitiveAttack generates prompts that embed optimized bias combinations, effectively bypassing safety protocols while maintaining high attack success rates. Experimental results reveal significant vulnerabilities across 30 diverse LLMs, particularly in open-source models. CognitiveAttack achieves a substantially higher attack success rate compared to the SOTA black-box method PAP (60.1% vs. 31.6%), exposing critical limitations in current defense mechanisms. These findings highlight multi-bias interactions as a powerful yet underexplored attack vector. This work introduces a novel interdisciplinary perspective by bridging cognitive science and LLM safety, paving the way for more robust and human-aligned AI systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、幅広いタスクにわたる印象的な能力を示しているが、その安全性メカニズムは、認知バイアスを悪用する敵の攻撃(合理的判断からの体系的な逸脱)の影響を受けやすいままである。
迅速なエンジニアリングやアルゴリズム操作に焦点を当てた以前のジェイルブレイクアプローチとは異なり、この研究はLLMの安全を損なう際のマルチバイアス相互作用の見過ごされたパワーを強調している。
我々は、個人と組み合わせた認知バイアスを体系的に活用する新しい赤チームフレームワークであるCognitiveAttackを提案する。
教師付き微調整と強化学習を統合することで、CognitiveAttackは最適化されたバイアスの組み合わせを組み込むプロンプトを生成し、高い攻撃成功率を維持しながら、安全プロトコルを効果的にバイパスする。
実験の結果、特にオープンソースモデルにおいて、30の多様なLSMにまたがる重大な脆弱性が明らかになった。
CognitiveAttack は SOTA のブラックボックス法 PAP (60.1% vs. 31.6%) と比較して、攻撃成功率がかなり高く、現在の防御機構に限界がある。
これらの知見は、マルチバイアス相互作用が、強力だが未発見の攻撃ベクトルであることを示している。
この研究は、認知科学とLLMの安全性を橋渡しし、より堅牢で人間に準拠したAIシステムへの道を開くことによって、新たな学際的な視点を導入する。
関連論文リスト
- Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs [26.07976338566543]
本稿では,LDMの内部推論機構をターゲットとした,新たなバックドア攻撃フレームワークであるShadowCoTを紹介する。
内部推論状態の条件付けによって、ShadowCoTは重要な推論ステップを認識し、選択的に破壊することを学ぶ。
提案手法では,注目経路と摂動中間表現を選択的に再構成する,軽量で効果的な多段インジェクションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-04-08T01:36:16Z) - Cognitive Overload Attack:Prompt Injection for Long Context [39.61095361609769]
大規模言語モデル(LLM)は、明示的な再訓練を必要とせずにタスクを実行する際、顕著な能力を示した。
この機能は、ICL(In-Context Learning)と呼ばれ、安全訓練されたLLMを操作して望ましくないあるいは有害な出力を生成する敵のプロンプトやジェイルブレイクにLLMを公開する。
我々は、認知負荷理論の原則をLLMに適用し、人間の認知と同様、LLMも認知負荷に悩まされていることを実証的に検証する。
GPT-4, Claude-3.5 Sonnet, Claude-3 OPUS, Llama-3-70B-Instruct, Gemini-1.0-Pro などの高度なモデルを示す。
論文 参考訳(メタデータ) (2024-10-15T04:53:34Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。