論文の概要: Detecting Language Model Attacks with Perplexity
- arxiv url: http://arxiv.org/abs/2308.14132v1
- Date: Sun, 27 Aug 2023 15:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 16:33:46.837399
- Title: Detecting Language Model Attacks with Perplexity
- Title(参考訳): パープレキシティによる言語モデル攻撃の検出
- Authors: Gabriel Alon, Michael Kamfonas
- Abstract要約: 大規模言語モデル(LLM)に関わる新たなハックが出現し、敵の接尾辞を利用してモデルを騙して危険な応答を生成する。
本研究では,このような攻撃を検知する手段として,パープレキシティの利用を提唱する。
このようなシナリオは、悪意のあるユーザに対して、爆発物の構築や銀行強盗の組織化に関する詳細な指示を与える可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A novel hack involving Large Language Models (LLMs) has emerged, leveraging
adversarial suffixes to trick models into generating perilous responses. This
method has garnered considerable attention from reputable media outlets such as
the New York Times and Wired, thereby influencing public perception regarding
the security and safety of LLMs. In this study, we advocate the utilization of
perplexity as one of the means to recognize such potential attacks. The
underlying concept behind these hacks revolves around appending an unusually
constructed string of text to a harmful query that would otherwise be blocked.
This maneuver confuses the protective mechanisms and tricks the model into
generating a forbidden response. Such scenarios could result in providing
detailed instructions to a malicious user for constructing explosives or
orchestrating a bank heist. Our investigation demonstrates the feasibility of
employing perplexity, a prevalent natural language processing metric, to detect
these adversarial tactics before generating a forbidden response. By evaluating
the perplexity of queries with and without such adversarial suffixes using an
open-source LLM, we discovered that nearly 90 percent were above a perplexity
of 1000. This contrast underscores the efficacy of perplexity for detecting
this type of exploit.
- Abstract(参考訳): 大規模言語モデル(LLM)に関わる新たなハックが出現し、敵の接尾辞を利用してモデルを騙して危険な応答を生成する。
この手法はNew York TimesやWiredなどの信頼できるメディアからかなりの注目を集めており、LLMの安全性と安全性に関する大衆の認識に影響を与えている。
本研究では,このような攻撃を認識できる方法の1つとして,パープレキシティの利用を提唱する。
これらのハックの背後にある概念は、異常に構築された文字列を有害なクエリに付加する、というものである。
この操作は保護機構を混乱させ、モデルを騙して禁止された応答を生成する。
このようなシナリオは、爆発物を構築したり銀行強盗を編成する悪意のあるユーザーに詳細な指示を与える可能性がある。
本研究は,自然言語処理指標であるパープレキシティ(perplexity)を禁止応答を生成する前に,これらの敵対的戦術を検出する可能性を示す。
オープンソースのLCMを用いて,このような逆数接尾辞のないクエリの難易度を評価することで,約90%が1000以上の難易度であったことがわかった。
このコントラストは、この種のエクスプロイトを検出するためのパープレキシティの有効性を裏付けるものである。
関連論文リスト
- DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - An LLM can Fool Itself: A Prompt-Based Adversarial Attack [26.460067102821476]
本稿では, プロンプトベースの対向攻撃(PromptAttack)を用いて, LLMの対向ロバスト性を評価する効率的なツールを提案する。
PromptAttackは、敵のテキスト攻撃を攻撃プロンプトに変換することで、被害者のLSMが敵のサンプルを不正に出力する可能性がある。
Llama2とGPT-3.5を使った総合的な実験結果から、PromptAttackはAdvGLUEやAdvGLUE++に比べて攻撃成功率がずっと高いことが証明されている。
論文 参考訳(メタデータ) (2023-10-20T08:16:46Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。