論文の概要: Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of
LLMs through a Global Scale Prompt Hacking Competition
- arxiv url: http://arxiv.org/abs/2311.16119v3
- Date: Sun, 3 Mar 2024 00:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 20:13:16.292095
- Title: Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of
LLMs through a Global Scale Prompt Hacking Competition
- Title(参考訳): このタイトルを無視してhackaprompt:グローバル・スケール・プロンプト・ハッキング・コンペティションを通じてllmのシステム的脆弱性を暴露する
- Authors: Sander Schulhoff, Jeremy Pinto, Anaum Khan, Louis-Fran\c{c}ois
Bouchard, Chenglei Si, Svetlina Anati, Valen Tagliabue, Anson Liu Kost,
Christopher Carnahan, Jordan Boyd-Graber
- Abstract要約: 大規模な言語モデルは、インジェクションとジェイルブレイクの即時実行に対して脆弱である。
われわれはグローバルなプロンプト・ハッキング・コンペティションを開催する。
我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。
- 参考スコア(独自算出の注目度): 8.560772603154545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are deployed in interactive contexts with direct
user engagement, such as chatbots and writing assistants. These deployments are
vulnerable to prompt injection and jailbreaking (collectively, prompt hacking),
in which models are manipulated to ignore their original instructions and
follow potentially malicious ones. Although widely acknowledged as a
significant security threat, there is a dearth of large-scale resources and
quantitative studies on prompt hacking. To address this lacuna, we launch a
global prompt hacking competition, which allows for free-form human input
attacks. We elicit 600K+ adversarial prompts against three state-of-the-art
LLMs. We describe the dataset, which empirically verifies that current LLMs can
indeed be manipulated via prompt hacking. We also present a comprehensive
taxonomical ontology of the types of adversarial prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チャットボットやライティングアシスタントなど、直接的なユーザエンゲージメントを備えたインタラクティブなコンテキストにデプロイされる。
これらのデプロイメントは、インジェクションとジェイルブレイク(まとめると、プロンプトハック)に対して脆弱で、モデルが元の命令を無視し、潜在的に悪意のある命令に従うように操作される。
セキュリティ上の重大な脅威として広く認識されているが、大規模なリソースや迅速なハッキングに関する定量的研究が多数存在する。
このラグナに対処するため、我々は、自由形式の人間の入力攻撃を可能にするグローバルなプロンプトハッキングコンペティションを立ち上げた。
我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。
本稿では,現在のLSMが即時ハッキングによって実際に操作可能であることを実証的に検証したデータセットについて述べる。
また,敵対的プロンプトの種類に関する包括的分類学的オントロジーも提示する。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM
Jailbreakers [80.18953043605696]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Detecting Language Model Attacks with Perplexity [0.0]
LLM(Large Language Models)を含む新たなハックが出現し、敵の接尾辞を利用してモデルを騙し、危険な応答を発生させた。
難易度とトークン長を訓練したLight-GBMは偽陽性を解消し、テストセットのほとんどの敵攻撃を正しく検出した。
論文 参考訳(メタデータ) (2023-08-27T15:20:06Z) - RatGPT: Turning online LLMs into Proxies for Malware Attacks [0.0]
本稿では、ChatGPTが検出を回避しつつ悪意あるソフトウェアの普及に使用される概念実証について述べる。
我々はまた、検出されていないまま攻撃を成功させるために、一般的なアプローチと重要な要素を提示する。
論文 参考訳(メタデータ) (2023-08-17T20:54:39Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Ignore Previous Prompt: Attack Techniques For Language Models [0.0]
PromptInjectは,マスクに基づく対角的プロンプト合成のためのフレームワークである。
実運用において最も広くデプロイされている言語モデルであるGPT-3は、手書き入力で容易にミスアライメント可能であることを示す。
論文 参考訳(メタデータ) (2022-11-17T13:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。