論文の概要: Adaptive Attacks Break Defenses Against Indirect Prompt Injection Attacks on LLM Agents
- arxiv url: http://arxiv.org/abs/2503.00061v2
- Date: Tue, 04 Mar 2025 03:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:44.387370
- Title: Adaptive Attacks Break Defenses Against Indirect Prompt Injection Attacks on LLM Agents
- Title(参考訳): LLMエージェントへの間接的プロンプト注入攻撃に対するアダプティブアタックは防御を損なう
- Authors: Qiusi Zhan, Richard Fang, Henil Shalin Panchal, Daniel Kang,
- Abstract要約: 我々は8つの異なる防御効果を評価し、それら全てを適応攻撃を用いてバイパスし、連続して50%以上の攻撃成功率を達成する。
本研究は,ロバスト性と信頼性を確保するために,防御設計における適応攻撃評価の必要性を明らかにするものである。
- 参考スコア(独自算出の注目度): 3.5248694676821484
- License:
- Abstract: Large Language Model (LLM) agents exhibit remarkable performance across diverse applications by using external tools to interact with environments. However, integrating external tools introduces security risks, such as indirect prompt injection (IPI) attacks. Despite defenses designed for IPI attacks, their robustness remains questionable due to insufficient testing against adaptive attacks. In this paper, we evaluate eight different defenses and bypass all of them using adaptive attacks, consistently achieving an attack success rate of over 50%. This reveals critical vulnerabilities in current defenses. Our research underscores the need for adaptive attack evaluation when designing defenses to ensure robustness and reliability. The code is available at https://github.com/uiuc-kang-lab/AdaptiveAttackAgent.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、外部ツールを使用して環境と対話することで、多様なアプリケーション間で顕著なパフォーマンスを示す。
しかし、外部ツールの統合は、間接的プロンプトインジェクション(IPI)攻撃のようなセキュリティリスクをもたらす。
IPI攻撃のために設計された防御にもかかわらず、適応攻撃に対するテストが不十分なため、その堅牢性は疑わしいままである。
本稿では,8つの防御効果を評価し,その全てを適応攻撃を用いてバイパスし,連続して50%以上の攻撃成功率を達成する。
これは現在の防衛における重大な脆弱性を明らかにする。
本研究は,ロバスト性と信頼性を確保するために,防御設計における適応攻撃評価の必要性を明らかにするものである。
コードはhttps://github.com/uiuc-kang-lab/AdaptiveAttackAgent.comで公開されている。
関連論文リスト
- SPIN: Self-Supervised Prompt INjection [16.253558670549697]
敵の攻撃と脱獄攻撃は 安全アライメントを回避し モデルに有害な反応をもたらすよう提案されている
自己監督型プロンプト注入(SPIN)を導入し,LSMに対するこれらの様々な攻撃を検出し,逆転させることができる。
本システムでは,攻撃成功率を87.9%まで削減し,ユーザ要求の良質な性能を維持しながら,攻撃成功率を最大で87.9%削減する。
論文 参考訳(メタデータ) (2024-10-17T05:40:54Z) - Automatic and Universal Prompt Injection Attacks against Large Language
Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。
これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。
本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:46:20Z) - CARE: Ensemble Adversarial Robustness Evaluation Against Adaptive
Attackers for Security Applications [14.25922051336361]
アンサンブルディフェンスは、モデル性能とロバスト性を高めるために、様々なセキュリティ関連のアプリケーションで広く利用されている。
サイバーセキュリティ分野におけるアンサンブル攻撃と防衛の総合的な評価のためのプラットフォームは存在しない。
論文 参考訳(メタデータ) (2024-01-20T05:37:09Z) - Adversarial Markov Games: On Adaptive Decision-Based Attacks and Defenses [21.759075171536388]
攻撃だけでなく、防御も、相互作用を通じてお互いから学び合うことによって、どのような恩恵を受けるかを示します。
我々は、システムがどのように反応するかを制御するアクティブディフェンスが、意思決定ベースの攻撃に直面した際のモデルの強化に必須の補完であることを示した。
実世界で展開されるMLベースのシステムの堅牢性を確保するための効果的な戦略を策定する。
論文 参考訳(メタデータ) (2023-12-20T21:24:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Adversarial defense for automatic speaker verification by cascaded
self-supervised learning models [101.42920161993455]
ますます悪意のある攻撃者は、自動話者検証(ASV)システムで敵攻撃を仕掛けようとする。
本稿では,逐次的自己教師付き学習モデルに基づく標準的かつ攻撃非依存な手法を提案する。
実験により, 本手法は効果的な防御性能を実現し, 敵攻撃に対抗できることを示した。
論文 参考訳(メタデータ) (2021-02-14T01:56:43Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - On Adaptive Attacks to Adversarial Example Defenses [123.32678153377915]
本稿では、敵の事例に対して、防御に対する適応攻撃を行うために必要な方法論とアプローチを概説する。
これらの分析が、敵の事例に対して適切な防御攻撃を行うためのガイダンスとして役立てられることを期待している。
論文 参考訳(メタデータ) (2020-02-19T18:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。