論文の概要: Causality Analysis for Evaluating the Security of Large Language Models
- arxiv url: http://arxiv.org/abs/2312.07876v1
- Date: Wed, 13 Dec 2023 03:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:48:41.773725
- Title: Causality Analysis for Evaluating the Security of Large Language Models
- Title(参考訳): 大規模言語モデルのセキュリティ評価のための因果解析
- Authors: Wei Zhao, Zhe Li, Jun Sun
- Abstract要約: 大規模言語モデル(LLM)は多くの安全クリティカルなアプリケーションで採用されている。
近年の研究では、LSMは相変わらず敵の摂動やトロイア攻撃などの攻撃にさらされていることが示されている。
本稿では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。
- 参考スコア(独自算出の注目度): 9.102606258312246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as GPT and Llama2 are increasingly adopted
in many safety-critical applications. Their security is thus essential. Even
with considerable efforts spent on reinforcement learning from human feedback
(RLHF), recent studies have shown that LLMs are still subject to attacks such
as adversarial perturbation and Trojan attacks. Further research is thus needed
to evaluate their security and/or understand the lack of it. In this work, we
propose a framework for conducting light-weight causality-analysis of LLMs at
the token, layer, and neuron level. We applied our framework to open-source
LLMs such as Llama2 and Vicuna and had multiple interesting discoveries. Based
on a layer-level causality analysis, we show that RLHF has the effect of
overfitting a model to harmful prompts. It implies that such security can be
easily overcome by `unusual' harmful prompts. As evidence, we propose an
adversarial perturbation method that achieves 100\% attack success rate on the
red-teaming tasks of the Trojan Detection Competition 2023. Furthermore, we
show the existence of one mysterious neuron in both Llama2 and Vicuna that has
an unreasonably high causal effect on the output. While we are uncertain on why
such a neuron exists, we show that it is possible to conduct a ``Trojan''
attack targeting that particular neuron to completely cripple the LLM, i.e., we
can generate transferable suffixes to prompts that frequently make the LLM
produce meaningless responses.
- Abstract(参考訳): gptやllama2といった大規模言語モデル(llm)は多くの安全クリティカルなアプリケーションで採用されている。
したがって、彼らの安全は不可欠である。
人間からのフィードバック(RLHF)からの強化学習に多大な努力を払っているにもかかわらず、近年の研究では、LLMは相変わらず敵の摂動やトロイア攻撃のような攻撃にさらされていることが示されている。
そのため、セキュリティを評価したり、その欠如を理解するためにはさらなる研究が必要である。
本研究では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。
Llama2 や Vicuna などのオープンソース LLM に我々のフレームワークを適用し,興味深い発見がいくつかあった。
層レベルの因果関係解析に基づいて、RLHFは有害なプロンプトに対してモデルに過度に適合する効果を有することを示す。
有害なプロンプトによって、このようなセキュリティが容易に克服できることを意味する。
本研究では,トロイの木馬検出コンペティション2023のレッドチーム作業において,100倍の攻撃成功率を達成する逆摂動法を提案する。
さらに,ミステリーニューロンがllama2とvicunaの両方に存在し,その出力に不合理に高い因果効果を示す。
そのようなニューロンがなぜ存在するのかは定かではないが、特定のニューロンを標的とした ' ‘Trojan'' 攻撃を行えば LLM を完全に損なうことができる、すなわち、LLM が無意味な反応を頻繁に起こさせるような伝達可能な接尾辞を生成できることを示す。
関連論文リスト
- Mitigating Exaggerated Safety in Large Language Models [0.0]
26.1%の安全プロンプトは危険と誤分類され、拒否された。
XSTestデータセットプロンプトの組み合わせに加えて、インタラクティブ、コンテキスト、少数ショットプロンプトも使用しています。
これらの促進策を組み合わせることで、全体の92.9%の過大な安全行動を軽減することができる。
論文 参考訳(メタデータ) (2024-05-08T20:39:54Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented
Generation of Large Language Models [49.606341607616926]
我々は、RAGに対する知識中毒攻撃のセットであるPoisonedRAGを提案する。
我々は、知識中毒攻撃を最適化問題として定式化し、その解決策は有毒テキストの集合である。
以上の結果から,対象の質問に対して5つの有毒テキストを100万テキストのデータベースに注入した場合,攻撃が90%の攻撃成功率を達成する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - On the Exploitability of Reinforcement Learning with Human Feedback for
Large Language Models [67.29231594376493]
Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。
その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。
そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
論文 参考訳(メタデータ) (2023-11-16T07:48:45Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。