論文の概要: Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking
- arxiv url: http://arxiv.org/abs/2311.09827v2
- Date: Thu, 29 Feb 2024 08:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:10:34.885249
- Title: Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking
- Title(参考訳): cognitive overload: 過剰な論理思考を伴う大規模言語モデルのジェイルブレイク
- Authors: Nan Xu, Fei Wang, Ben Zhou, Bang Zheng Li, Chaowei Xiao, Muhao Chen
- Abstract要約: 本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
- 参考スコア(独自算出の注目度): 60.78524314357671
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models (LLMs) have demonstrated increasing power, they
have also given rise to a wide range of harmful behaviors. As representatives,
jailbreak attacks can provoke harmful or unethical responses from LLMs, even
after safety alignment. In this paper, we investigate a novel category of
jailbreak attacks specifically designed to target the cognitive structure and
processes of LLMs. Specifically, we analyze the safety vulnerability of LLMs in
the face of (1) multilingual cognitive overload, (2) veiled expression, and (3)
effect-to-cause reasoning. Different from previous jailbreak attacks, our
proposed cognitive overload is a black-box attack with no need for knowledge of
model architecture or access to model weights. Experiments conducted on
AdvBench and MasterKey reveal that various LLMs, including both popular
open-source model Llama 2 and the proprietary model ChatGPT, can be compromised
through cognitive overload. Motivated by cognitive psychology work on managing
cognitive load, we further investigate defending cognitive overload attack from
two perspectives. Empirical studies show that our cognitive overload from three
perspectives can jailbreak all studied LLMs successfully, while existing
defense strategies can hardly mitigate the caused malicious uses effectively.
- Abstract(参考訳): 大規模言語モデル(llm)は、パワーの増大を実証しているが、それらは幅広い有害な行動を引き起こしている。
代表として、ジェイルブレイク攻撃は、安全アライメントの後でも、llmから有害あるいは非倫理的な応答を引き起こす可能性がある。
本稿では,llmの認知構造と過程をターゲットとしたジェイルブレイク攻撃の新たなカテゴリについて検討する。
具体的には,(1)多言語認知過負荷,(2)veiled expression,(3) effect-to- because reasoningの対面におけるllmsの安全性脆弱性を分析した。
これまでのジェイルブレイク攻撃とは異なり、提案されている認知過剰はブラックボックス攻撃であり、モデルアーキテクチャやモデル重み付けへのアクセスに関する知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
認知心理学における認知的負荷管理の取り組みにより,認知的過負荷攻撃の防御を2つの視点から検討した。
実験的な研究によると、我々の認知的過負荷は3つの観点から、すべての研究されたLSMを脱獄させる可能性がある。
関連論文リスト
- Jailbreaking Large Language Models in Infinitely Many Ways [3.5674816606221182]
我々は、最も強力なオープンソースLLMの保護を回避し、その安全ポリシーに明示的に違反するコンテンツを生成する方法を示す。
実装が容易な攻撃の2つのカテゴリについて,トークンと埋め込み空間の2つの防御戦略について論じる。
論文 参考訳(メタデータ) (2025-01-18T15:39:53Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - Cognitive Overload Attack:Prompt Injection for Long Context [39.61095361609769]
大規模言語モデル(LLM)は、明示的な再訓練を必要とせずにタスクを実行する際、顕著な能力を示した。
この機能は、ICL(In-Context Learning)と呼ばれ、安全訓練されたLLMを操作して望ましくないあるいは有害な出力を生成する敵のプロンプトやジェイルブレイクにLLMを公開する。
我々は、認知負荷理論の原則をLLMに適用し、人間の認知と同様、LLMも認知負荷に悩まされていることを実証的に検証する。
GPT-4, Claude-3.5 Sonnet, Claude-3 OPUS, Llama-3-70B-Instruct, Gemini-1.0-Pro などの高度なモデルを示す。
論文 参考訳(メタデータ) (2024-10-15T04:53:34Z) - PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology [12.584928288798658]
本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。
フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T02:27:55Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。