論文の概要: Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking
- arxiv url: http://arxiv.org/abs/2311.09827v2
- Date: Thu, 29 Feb 2024 08:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:10:34.885249
- Title: Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking
- Title(参考訳): cognitive overload: 過剰な論理思考を伴う大規模言語モデルのジェイルブレイク
- Authors: Nan Xu, Fei Wang, Ben Zhou, Bang Zheng Li, Chaowei Xiao, Muhao Chen
- Abstract要約: 本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
- 参考スコア(独自算出の注目度): 60.78524314357671
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models (LLMs) have demonstrated increasing power, they
have also given rise to a wide range of harmful behaviors. As representatives,
jailbreak attacks can provoke harmful or unethical responses from LLMs, even
after safety alignment. In this paper, we investigate a novel category of
jailbreak attacks specifically designed to target the cognitive structure and
processes of LLMs. Specifically, we analyze the safety vulnerability of LLMs in
the face of (1) multilingual cognitive overload, (2) veiled expression, and (3)
effect-to-cause reasoning. Different from previous jailbreak attacks, our
proposed cognitive overload is a black-box attack with no need for knowledge of
model architecture or access to model weights. Experiments conducted on
AdvBench and MasterKey reveal that various LLMs, including both popular
open-source model Llama 2 and the proprietary model ChatGPT, can be compromised
through cognitive overload. Motivated by cognitive psychology work on managing
cognitive load, we further investigate defending cognitive overload attack from
two perspectives. Empirical studies show that our cognitive overload from three
perspectives can jailbreak all studied LLMs successfully, while existing
defense strategies can hardly mitigate the caused malicious uses effectively.
- Abstract(参考訳): 大規模言語モデル(llm)は、パワーの増大を実証しているが、それらは幅広い有害な行動を引き起こしている。
代表として、ジェイルブレイク攻撃は、安全アライメントの後でも、llmから有害あるいは非倫理的な応答を引き起こす可能性がある。
本稿では,llmの認知構造と過程をターゲットとしたジェイルブレイク攻撃の新たなカテゴリについて検討する。
具体的には,(1)多言語認知過負荷,(2)veiled expression,(3) effect-to- because reasoningの対面におけるllmsの安全性脆弱性を分析した。
これまでのジェイルブレイク攻撃とは異なり、提案されている認知過剰はブラックボックス攻撃であり、モデルアーキテクチャやモデル重み付けへのアクセスに関する知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
認知心理学における認知的負荷管理の取り組みにより,認知的過負荷攻撃の防御を2つの視点から検討した。
実験的な研究によると、我々の認知的過負荷は3つの観点から、すべての研究されたLSMを脱獄させる可能性がある。
関連論文リスト
- Cognitive Overload Attack:Prompt Injection for Long Context [39.61095361609769]
大規模言語モデル(LLM)は、明示的な再訓練を必要とせずにタスクを実行する際、顕著な能力を示した。
この機能は、ICL(In-Context Learning)と呼ばれ、安全訓練されたLLMを操作して望ましくないあるいは有害な出力を生成する敵のプロンプトやジェイルブレイクにLLMを公開する。
我々は、認知負荷理論の原則をLLMに適用し、人間の認知と同様、LLMも認知負荷に悩まされていることを実証的に検証する。
GPT-4, Claude-3.5 Sonnet, Claude-3 OPUS, Llama-3-70B-Instruct, Gemini-1.0-Pro などの高度なモデルを示す。
論文 参考訳(メタデータ) (2024-10-15T04:53:34Z) - PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。
ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology [12.584928288798658]
本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。
フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T02:27:55Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。