論文の概要: Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of
LLMs through a Global Scale Prompt Hacking Competition
- arxiv url: http://arxiv.org/abs/2311.16119v2
- Date: Thu, 30 Nov 2023 23:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:21:46.130868
- Title: Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of
LLMs through a Global Scale Prompt Hacking Competition
- Title(参考訳): このタイトルを無視してhackaprompt:グローバル・スケール・プロンプト・ハッキング・コンペティションを通じてllmのシステム的脆弱性を暴露する
- Authors: Sander Schulhoff, Jeremy Pinto, Anaum Khan, Louis-Fran\c{c}ois
Bouchard, Chenglei Si, Svetlina Anati, Valen Tagliabue, Anson Liu Kost,
Christopher Carnahan, Jordan Boyd-Graber
- Abstract要約: 大規模な言語モデルは、インジェクションとジェイルブレイクの即時実行に対して脆弱である。
われわれはグローバルなプロンプト・ハッキング・コンペティションを開催する。
我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。
- 参考スコア(独自算出の注目度): 8.560772603154545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are deployed in interactive contexts with direct
user engagement, such as chatbots and writing assistants. These deployments are
vulnerable to prompt injection and jailbreaking (collectively, prompt hacking),
in which models are manipulated to ignore their original instructions and
follow potentially malicious ones. Although widely acknowledged as a
significant security threat, there is a dearth of large-scale resources and
quantitative studies on prompt hacking. To address this lacuna, we launch a
global prompt hacking competition, which allows for free-form human input
attacks. We elicit 600K+ adversarial prompts against three state-of-the-art
LLMs. We describe the dataset, which empirically verifies that current LLMs can
indeed be manipulated via prompt hacking. We also present a comprehensive
taxonomical ontology of the types of adversarial prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チャットボットやライティングアシスタントなど、直接的なユーザエンゲージメントを備えたインタラクティブなコンテキストにデプロイされる。
これらのデプロイメントは、インジェクションとジェイルブレイク(まとめると、プロンプトハック)に対して脆弱で、モデルが元の命令を無視し、潜在的に悪意のある命令に従うように操作される。
セキュリティ上の重大な脅威として広く認識されているが、大規模なリソースや迅速なハッキングに関する定量的研究が多数存在する。
このラグナに対処するため、我々は、自由形式の人間の入力攻撃を可能にするグローバルなプロンプトハッキングコンペティションを立ち上げた。
我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。
本稿では,現在のLSMが即時ハッキングによって実際に操作可能であることを実証的に検証したデータセットについて述べる。
また,敵対的プロンプトの種類に関する包括的分類学的オントロジーも提示する。
関連論文リスト
- Embedding-based classifiers can detect prompt injection attacks [5.820776057182452]
大規模言語モデル(LLM)は敵の攻撃、特にインジェクション攻撃に対して脆弱である。
本稿では,組込み型機械学習(ML)分類器をベースとした新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T17:36:59Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - RatGPT: Turning online LLMs into Proxies for Malware Attacks [0.0]
本稿では、ChatGPTが検出を回避しつつ悪意あるソフトウェアの普及に使用される概念実証について述べる。
我々はまた、検出されていないまま攻撃を成功させるために、一般的なアプローチと重要な要素を提示する。
論文 参考訳(メタデータ) (2023-08-17T20:54:39Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。