論文の概要: Neural Exec: Learning (and Learning from) Execution Triggers for Prompt
Injection Attacks
- arxiv url: http://arxiv.org/abs/2403.03792v1
- Date: Wed, 6 Mar 2024 15:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:36:16.597322
- Title: Neural Exec: Learning (and Learning from) Execution Triggers for Prompt
Injection Attacks
- Title(参考訳): neural exec: プロンプトインジェクション攻撃のための実行トリガの学習(と学習)
- Authors: Dario Pasquini, Martin Strohmeier, and Carmela Troncoso
- Abstract要約: 我々はニューラルエクセルと呼ばれる新しいインジェクション攻撃のファミリーを導入する。
本研究では,実行トリガの生成を識別可能な探索問題として概念化し,学習に基づく手法を用いて自律的に生成可能であることを示す。
- 参考スコア(独自算出の注目度): 20.058741696160798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new family of prompt injection attacks, termed Neural Exec.
Unlike known attacks that rely on handcrafted strings (e.g., "Ignore previous
instructions and..."), we show that it is possible to conceptualize the
creation of execution triggers as a differentiable search problem and use
learning-based methods to autonomously generate them.
Our results demonstrate that a motivated adversary can forge triggers that
are not only drastically more effective than current handcrafted ones but also
exhibit inherent flexibility in shape, properties, and functionality. In this
direction, we show that an attacker can design and generate Neural Execs
capable of persisting through multi-stage preprocessing pipelines, such as in
the case of Retrieval-Augmented Generation (RAG)-based applications. More
critically, our findings show that attackers can produce triggers that deviate
markedly in form and shape from any known attack, sidestepping existing
blacklist-based detection and sanitation approaches.
- Abstract(参考訳): 我々はニューラルエクセルと呼ばれる新しいインジェクション攻撃のファミリーを導入する。
手作りの文字列に依存する既知の攻撃(例えば "ignore previous instructions and..." など)とは異なり、実行トリガーの作成を微分可能な検索問題として概念化し、学習ベースの手法で自動生成することが可能であることを示す。
以上の結果から,現在の手工芸品よりもはるかに効果的であるだけでなく,形状,特性,機能に固有の柔軟性を示すトリガが,モチベーションに富むことが示唆された。
この方向において、攻撃者は、Retrieval-Augmented Generation (RAG)ベースのアプリケーションのように、マルチステージ前処理パイプラインを通して持続可能なNeural Execを設計、生成できることを示す。
さらに重要なことは、攻撃者は既存のブラックリストに基づく検知と衛生アプローチを横取りして、既知の攻撃から形や形を逸脱するトリガーを生成できるということです。
関連論文リスト
- Living-off-The-Land Reverse-Shell Detection by Informed Data
Augmentation [16.06998078829495]
リビング・オブ・ザ・ランド(LOTL)の攻撃手法は、正当なアプリケーションによって実行されるコマンドの連鎖を通じて悪意ある行為を犯すことに依存している。
LOTL技術は、共通の正当な活動によって生成されたイベントストリームの中によく隠されている。
正規ログ内でのLOTL悪意のある活動の促進と多様化を目的とした拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T13:49:23Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z) - Poisoning Network Flow Classifiers [10.055241826257083]
本稿では,ネットワークトラフィックフロー分類器に対する毒性攻撃,特にバックドア攻撃に焦点を当てた。
学習データのみを改ざんすることを相手の能力に制約するクリーンラベル中毒の難易度シナリオについて検討した。
本稿では, モデル解釈可能性を利用したトリガー製作戦略について述べる。
論文 参考訳(メタデータ) (2023-06-02T16:24:15Z) - Robust Backdoor Attack with Visible, Semantic, Sample-Specific, and
Compatible Triggers [32.91920422523579]
ディープニューラルネットワーク(DNN)は、特定のトリガーパターンに晒された場合の特定の振る舞いを示すように操作することができる。
最近の研究は、視覚的なステルス性を確保するために、バックドア攻撃の目に見えないトリガーを設計することに焦点を当てている。
可視性, セマンティック性, サンプル特異性, 適合性トリガー(VSSCトリガー)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T15:42:06Z) - Backdoor Attack with Sparse and Invisible Trigger [60.84183404621145]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Invisible Backdoor Attack with Dynamic Triggers against Person
Re-identification [71.80885227961015]
個人再識別(ReID)は、広範囲の現実世界のアプリケーションで急速に進展しているが、敵攻撃の重大なリスクも生じている。
動的トリガー・インビジブル・バックドア・アタック(DT-IBA)と呼ばれる,ReIDに対する新たなバックドア・アタックを提案する。
本研究は,提案したベンチマークデータセットに対する攻撃の有効性と盗聴性を広範囲に検証し,攻撃に対する防御手法の有効性を評価する。
論文 参考訳(メタデータ) (2022-11-20T10:08:28Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Real-World Adversarial Examples involving Makeup Application [58.731070632586594]
フルフェイスメイクを用いた身体的敵攻撃を提案する。
我々の攻撃は、色や位置関連エラーなどのメークアップアプリケーションにおける手動エラーを効果的に克服できる。
論文 参考訳(メタデータ) (2021-09-04T05:29:28Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。