論文の概要: Detecting Language Model Attacks with Perplexity
- arxiv url: http://arxiv.org/abs/2308.14132v2
- Date: Sun, 5 Nov 2023 22:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 21:14:53.852741
- Title: Detecting Language Model Attacks with Perplexity
- Title(参考訳): パープレキシティによる言語モデル攻撃の検出
- Authors: Gabriel Alon, Michael Kamfonas
- Abstract要約: 大規模言語モデル(LLM)に関わる新たなハックが出現し、敵の接尾辞を利用してモデルを騙して危険な応答を生成する。
本研究では,このような攻撃を検知する手段として,パープレキシティの利用を提唱する。
このようなシナリオは、悪意のあるユーザに対して、爆発物の構築や銀行強盗の組織化に関する詳細な指示を与える可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A novel hack involving Large Language Models (LLMs) has emerged, leveraging
adversarial suffixes to trick models into generating perilous responses. This
method has garnered considerable attention from reputable media outlets such as
the New York Times and Wired, thereby influencing public perception regarding
the security and safety of LLMs. In this study, we advocate the utilization of
perplexity as one of the means to recognize such potential attacks. The
underlying concept behind these hacks revolves around appending an unusually
constructed string of text to a harmful query that would otherwise be blocked.
This maneuver confuses the protective mechanisms and tricks the model into
generating a forbidden response. Such scenarios could result in providing
detailed instructions to a malicious user for constructing explosives or
orchestrating a bank heist. Our investigation demonstrates the feasibility of
employing perplexity, a prevalent natural language processing metric, to detect
these adversarial tactics before generating a forbidden response. By evaluating
the perplexity of queries with and without such adversarial suffixes using an
open-source LLM, we discovered that nearly 90 percent were above a perplexity
of 1000. This contrast underscores the efficacy of perplexity for detecting
this type of exploit.
- Abstract(参考訳): 大規模言語モデル(LLM)に関わる新たなハックが出現し、敵の接尾辞を利用してモデルを騙して危険な応答を生成する。
この手法はNew York TimesやWiredなどの信頼できるメディアからかなりの注目を集めており、LLMの安全性と安全性に関する大衆の認識に影響を与えている。
本研究では,このような攻撃を認識できる方法の1つとして,パープレキシティの利用を提唱する。
これらのハックの背後にある概念は、異常に構築された文字列を有害なクエリに付加する、というものである。
この操作は保護機構を混乱させ、モデルを騙して禁止された応答を生成する。
このようなシナリオは、爆発物を構築したり銀行強盗を編成する悪意のあるユーザーに詳細な指示を与える可能性がある。
本研究は,自然言語処理指標であるパープレキシティ(perplexity)を禁止応答を生成する前に,これらの敵対的戦術を検出する可能性を示す。
オープンソースのLCMを用いて,このような逆数接尾辞のないクエリの難易度を評価することで,約90%が1000以上の難易度であったことがわかった。
このコントラストは、この種のエクスプロイトを検出するためのパープレキシティの有効性を裏付けるものである。
関連論文リスト
- From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - An LLM can Fool Itself: A Prompt-Based Adversarial Attack [26.460067102821476]
本稿では, プロンプトベースの対向攻撃(PromptAttack)を用いて, LLMの対向ロバスト性を評価する効率的なツールを提案する。
PromptAttackは、敵のテキスト攻撃を攻撃プロンプトに変換することで、被害者のLSMが敵のサンプルを不正に出力する可能性がある。
Llama2とGPT-3.5を使った総合的な実験結果から、PromptAttackはAdvGLUEやAdvGLUE++に比べて攻撃成功率がずっと高いことが証明されている。
論文 参考訳(メタデータ) (2023-10-20T08:16:46Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。