Fugu-MT 論文翻訳(概要): Causality Analysis for Evaluating the Security of Large Language Models

論文の概要: Causality Analysis for Evaluating the Security of Large Language Models

arxiv url: http://arxiv.org/abs/2312.07876v1
Date: Wed, 13 Dec 2023 03:35:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 16:48:41.773725
Title: Causality Analysis for Evaluating the Security of Large Language Models
Title（参考訳）: 大規模言語モデルのセキュリティ評価のための因果解析
Authors: Wei Zhao, Zhe Li, Jun Sun
Abstract要約: 大規模言語モデル(LLM)は多くの安全クリティカルなアプリケーションで採用されている。近年の研究では、LSMは相変わらず敵の摂動やトロイア攻撃などの攻撃にさらされていることが示されている。本稿では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。
参考スコア（独自算出の注目度）: 9.102606258312246
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) such as GPT and Llama2 are increasingly adopted in many safety-critical applications. Their security is thus essential. Even with considerable efforts spent on reinforcement learning from human feedback (RLHF), recent studies have shown that LLMs are still subject to attacks such as adversarial perturbation and Trojan attacks. Further research is thus needed to evaluate their security and/or understand the lack of it. In this work, we propose a framework for conducting light-weight causality-analysis of LLMs at the token, layer, and neuron level. We applied our framework to open-source LLMs such as Llama2 and Vicuna and had multiple interesting discoveries. Based on a layer-level causality analysis, we show that RLHF has the effect of overfitting a model to harmful prompts. It implies that such security can be easily overcome by `unusual' harmful prompts. As evidence, we propose an adversarial perturbation method that achieves 100\% attack success rate on the red-teaming tasks of the Trojan Detection Competition 2023. Furthermore, we show the existence of one mysterious neuron in both Llama2 and Vicuna that has an unreasonably high causal effect on the output. While we are uncertain on why such a neuron exists, we show that it is possible to conduct a ``Trojan'' attack targeting that particular neuron to completely cripple the LLM, i.e., we can generate transferable suffixes to prompts that frequently make the LLM produce meaningless responses.
Abstract（参考訳）: gptやllama2といった大規模言語モデル(llm)は多くの安全クリティカルなアプリケーションで採用されている。したがって、彼らの安全は不可欠である。人間からのフィードバック(RLHF)からの強化学習に多大な努力を払っているにもかかわらず、近年の研究では、LLMは相変わらず敵の摂動やトロイア攻撃のような攻撃にさらされていることが示されている。そのため、セキュリティを評価したり、その欠如を理解するためにはさらなる研究が必要である。本研究では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。 Llama2 や Vicuna などのオープンソース LLM に我々のフレームワークを適用し,興味深い発見がいくつかあった。層レベルの因果関係解析に基づいて、RLHFは有害なプロンプトに対してモデルに過度に適合する効果を有することを示す。有害なプロンプトによって、このようなセキュリティが容易に克服できることを意味する。本研究では,トロイの木馬検出コンペティション2023のレッドチーム作業において,100倍の攻撃成功率を達成する逆摂動法を提案する。さらに,ミステリーニューロンがllama2とvicunaの両方に存在し,その出力に不合理に高い因果効果を示す。そのようなニューロンがなぜ存在するのかは定かではないが、特定のニューロンを標的とした ' ‘Trojan'' 攻撃を行えば LLM を完全に損なうことができる、すなわち、LLM が無意味な反応を頻繁に起こさせるような伝達可能な接尾辞を生成できることを示す。

関連論文リスト

Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文参考訳（メタデータ） (2025-07-17T18:33:50Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Cognitive Overload Attack:Prompt Injection for Long Context [39.61095361609769]
大規模言語モデル(LLM)は、明示的な再訓練を必要とせずにタスクを実行する際、顕著な能力を示した。この機能は、ICL(In-Context Learning)と呼ばれ、安全訓練されたLLMを操作して望ましくないあるいは有害な出力を生成する敵のプロンプトやジェイルブレイクにLLMを公開する。我々は、認知負荷理論の原則をLLMに適用し、人間の認知と同様、LLMも認知負荷に悩まされていることを実証的に検証する。 GPT-4, Claude-3.5 Sonnet, Claude-3 OPUS, Llama-3-70B-Instruct, Gemini-1.0-Pro などの高度なモデルを示す。
論文参考訳（メタデータ） (2024-10-15T04:53:34Z)
F2A: An Innovative Approach for Prompt Injection by Utilizing Feign Security Detection Agents [0.0]
大規模言語モデルは、安全検出剤に対する盲目的な信頼を示す。本論文は、F2A(Feign Agent Attack)と名づけられた攻撃を提案する。実験には、偽の安全検出結果がプロンプトに注入される様々なシナリオが含まれていた。
論文参考訳（メタデータ） (2024-10-11T12:49:05Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文参考訳（メタデータ） (2024-05-22T07:21:32Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文参考訳（メタデータ） (2024-02-25T06:46:27Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
Revisiting Jailbreaking for Large Language Models: A Representation Engineering Perspective [43.94115802328438]
最近のジェイルブレイク攻撃の急増により、悪意のある入力に晒された場合、Large Language Models(LLM)の重大な脆弱性が明らかになった。 LLMの自己保護能力は,その表現空間内の特定の行動パターンと関係があることが示唆された。これらのパターンは,数対のコントラストクエリで検出可能であることを示す。
論文参考訳（メタデータ） (2024-01-12T00:50:04Z)
Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。 AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文参考訳（メタデータ） (2023-11-16T11:52:22Z)
RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models [62.72318564072706]
Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
論文参考訳（メタデータ） (2023-11-16T07:48:45Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。