論文の概要: Cognitive Overload Attack:Prompt Injection for Long Context
- arxiv url: http://arxiv.org/abs/2410.11272v1
- Date: Tue, 15 Oct 2024 04:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:47.211030
- Title: Cognitive Overload Attack:Prompt Injection for Long Context
- Title(参考訳): 認知的過負荷攻撃:長期用プロンプト注入
- Authors: Bibek Upadhayay, Vahid Behzadan, Amin Karbasi,
- Abstract要約: 大規模言語モデル(LLM)は、明示的な再訓練を必要とせずにタスクを実行する際、顕著な能力を示した。
この機能は、ICL(In-Context Learning)と呼ばれ、安全訓練されたLLMを操作して望ましくないあるいは有害な出力を生成する敵のプロンプトやジェイルブレイクにLLMを公開する。
我々は、認知負荷理論の原則をLLMに適用し、人間の認知と同様、LLMも認知負荷に悩まされていることを実証的に検証する。
GPT-4, Claude-3.5 Sonnet, Claude-3 OPUS, Llama-3-70B-Instruct, Gemini-1.0-Pro などの高度なモデルを示す。
- 参考スコア(独自算出の注目度): 39.61095361609769
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in performing tasks across various domains without needing explicit retraining. This capability, known as In-Context Learning (ICL), while impressive, exposes LLMs to a variety of adversarial prompts and jailbreaks that manipulate safety-trained LLMs into generating undesired or harmful output. In this paper, we propose a novel interpretation of ICL in LLMs through the lens of cognitive neuroscience, by drawing parallels between learning in human cognition with ICL. We applied the principles of Cognitive Load Theory in LLMs and empirically validate that similar to human cognition, LLMs also suffer from cognitive overload a state where the demand on cognitive processing exceeds the available capacity of the model, leading to potential errors. Furthermore, we demonstrated how an attacker can exploit ICL to jailbreak LLMs through deliberately designed prompts that induce cognitive overload on LLMs, thereby compromising the safety mechanisms of LLMs. We empirically validate this threat model by crafting various cognitive overload prompts and show that advanced models such as GPT-4, Claude-3.5 Sonnet, Claude-3 OPUS, Llama-3-70B-Instruct, Gemini-1.0-Pro, and Gemini-1.5-Pro can be successfully jailbroken, with attack success rates of up to 99.99%. Our findings highlight critical vulnerabilities in LLMs and underscore the urgency of developing robust safeguards. We propose integrating insights from cognitive load theory into the design and evaluation of LLMs to better anticipate and mitigate the risks of adversarial attacks. By expanding our experiments to encompass a broader range of models and by highlighting vulnerabilities in LLMs' ICL, we aim to ensure the development of safer and more reliable AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、明示的な再トレーニングを必要とせず、様々なドメインでタスクを実行する際、顕著な能力を示した。
この能力は、ICL(In-Context Learning)として知られるが、印象的ではあるが、安全訓練されたLLMを操作して望ましくないあるいは有害な出力を生成する、様々な敵のプロンプトやジェイルブレイクにLLMを公開している。
本稿では,認知神経科学のレンズを通したLLMにおけるICLの新たな解釈を提案する。
我々はLLMに認知負荷理論の原理を適用し、人間の認知と同様、認知処理に対する需要がモデルが利用可能な能力を超える状態の認知負荷に悩まされ、潜在的な誤りをもたらすことを実証的に検証した。
さらに,攻撃者がILCを利用してLSMをジェイルブレイクし,LCMの認知的過負荷を引き起こすプロンプトを意図的に設計し,LSMの安全性を損なうことを実証した。
GPT-4、Claude-3.5 Sonnet、Claude-3 OPUS、Llama-3-70B-Instruct、Gemini-1.0-Pro、Gemini-1.5-Proといった先進モデルが、最大99.99%の攻撃成功率で脱獄できることを示す。
本研究は,LSMの重大な脆弱性を浮き彫りにし,ロバストセーフガードの開発の緊急性を強調した。
本稿では,認知負荷理論からの洞察をLCMの設計と評価に統合し,敵攻撃のリスクを予測し軽減することを提案する。
LLMのICLの脆弱性を強調することで、より安全で信頼性の高いAIシステムの開発を確実にすることを目的としています。
関連論文リスト
- PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks [23.782566331783134]
我々は3つのカテゴリ、61の特定の有害なカテゴリからの1525の質問、13の人気のあるLCMの10の最先端のジェイルブレイク戦略に焦点を当てた。
攻撃成功率(ASR)、毒性スコア(Toxicity Score)、Fluency(Fluency)、Token Length(Token Length)、文法エラー(Grammatical Errors)などの多次元指標を用いて、ジェイルブレイク下でのLLMのアウトプットを徹底的に評価する。
モデル,攻撃戦略,有害コンテンツの種類,および評価指標間の相関関係について検討し,多面的評価フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T01:58:03Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [38.437893814759086]
大きな言語モデル(LLM)は様々なタスクで顕著に成功しているが、その安全性と有害なコンテンツを生成するリスクは依然として懸念されている。
本研究では, LLM を倒すために有害な実証を行う In-Context Attack (ICA) と, 有害な応答の再現を拒否する事例を通じてモデルレジリエンスを高める In-Context Defense (ICD) を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。