論文の概要: Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2403.03792v2
- Date: Thu, 2 May 2024 09:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 21:31:27.660548
- Title: Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks
- Title(参考訳): Neural Exec: プロンプトインジェクション攻撃のための(そしてそこから学ぶ)実行トリガー
- Authors: Dario Pasquini, Martin Strohmeier, Carmela Troncoso,
- Abstract要約: 我々はニューラルエクセルと呼ばれる新しいインジェクション攻撃のファミリーを導入する。
本研究では,実行トリガの生成を識別可能な探索問題として概念化し,学習に基づく手法を用いて自律的に生成可能であることを示す。
- 参考スコア(独自算出の注目度): 20.058741696160798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new family of prompt injection attacks, termed Neural Exec. Unlike known attacks that rely on handcrafted strings (e.g., "Ignore previous instructions and..."), we show that it is possible to conceptualize the creation of execution triggers as a differentiable search problem and use learning-based methods to autonomously generate them. Our results demonstrate that a motivated adversary can forge triggers that are not only drastically more effective than current handcrafted ones but also exhibit inherent flexibility in shape, properties, and functionality. In this direction, we show that an attacker can design and generate Neural Execs capable of persisting through multi-stage preprocessing pipelines, such as in the case of Retrieval-Augmented Generation (RAG)-based applications. More critically, our findings show that attackers can produce triggers that deviate markedly in form and shape from any known attack, sidestepping existing blacklist-based detection and sanitation approaches.
- Abstract(参考訳): 我々はニューラルエクセルと呼ばれる新しいインジェクション攻撃のファミリーを導入する。
手作り文字列に依存する既知の攻撃(例えば、"Ignore previous instructions and ...")とは異なり、実行トリガの生成を識別可能な検索問題として概念化し、学習に基づく手法を用いて自律的に生成できることが示されている。
以上の結果から,現在の手工芸品よりもはるかに効果的であるだけでなく,形状,特性,機能に固有の柔軟性を示すトリガが,モチベーションに富むことが示唆された。
この方向において、攻撃者は、Retrieval-Augmented Generation (RAG)ベースのアプリケーションのように、マルチステージ前処理パイプラインを通して持続可能なNeural Execを設計、生成できることを示す。
さらに重要なことは、攻撃者は既存のブラックリストに基づく検知と衛生のアプローチを横取りして、既知の攻撃から形や形を逸脱するトリガーを生成できるということです。
関連論文リスト
- Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.578800906364414]
オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。
バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。
本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-23T03:46:45Z) - Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - Rethinking Graph Backdoor Attacks: A Distribution-Preserving Perspective [33.35835060102069]
グラフニューラルネットワーク(GNN)は、様々なタスクにおいて顕著なパフォーマンスを示している。
バックドア攻撃は、トレーニンググラフ内のノードのセットにバックドアトリガとターゲットクラスラベルをアタッチすることで、グラフを汚染する。
本稿では,IDトリガによる無意味なグラフバックドア攻撃の新たな問題について検討する。
論文 参考訳(メタデータ) (2024-05-17T13:09:39Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z) - Versatile Backdoor Attack with Visible, Semantic, Sample-Specific, and Compatible Triggers [38.67988745745853]
我々はtextbfVisible, textbfSemantic, textbfSample-lang, textbfCompatible (VSSC) と呼ばれる新しいトリガを提案する。
VSSCトリガは、効果的でステルス的で堅牢な同時実行を実現しており、対応するオブジェクトを使用して物理的シナリオに効果的にデプロイすることもできる。
論文 参考訳(メタデータ) (2023-06-01T15:42:06Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Invisible Backdoor Attack with Dynamic Triggers against Person
Re-identification [71.80885227961015]
個人再識別(ReID)は、広範囲の現実世界のアプリケーションで急速に進展しているが、敵攻撃の重大なリスクも生じている。
動的トリガー・インビジブル・バックドア・アタック(DT-IBA)と呼ばれる,ReIDに対する新たなバックドア・アタックを提案する。
本研究は,提案したベンチマークデータセットに対する攻撃の有効性と盗聴性を広範囲に検証し,攻撃に対する防御手法の有効性を評価する。
論文 参考訳(メタデータ) (2022-11-20T10:08:28Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。