論文の概要: AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema
- arxiv url: http://arxiv.org/abs/2509.00088v2
- Date: Thu, 09 Oct 2025 04:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.591915
- Title: AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema
- Title(参考訳): AEGIS : プロンプトインジェクションスキーマの保護のための自動共進化フレームワーク
- Authors: Ting-Chun Liu, Ching-Yu Hsu, Kuan-Yi Lee, Chi-An Fu, Hung-yi Lee,
- Abstract要約: AEGISは,プロンプトインジェクションのガードのための自動共進化フレームワークである。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
本研究では,実世界のアサイングレーティングデータセットを用いたインジェクション攻撃の評価を行い,本手法が既存のベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 39.44407870355891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection attacks pose a significant challenge to the safe deployment of Large Language Models (LLMs) in real-world applications. While prompt-based detection offers a lightweight and interpretable defense strategy, its effectiveness has been hindered by the need for manual prompt engineering. To address this issue, we propose AEGIS , an Automated co-Evolutionary framework for Guarding prompt Injections Schema. Both attack and defense prompts are iteratively optimized against each other using a gradient-like natural language prompt optimization technique. This framework enables both attackers and defenders to autonomously evolve via a Textual Gradient Optimization (TGO) module, leveraging feedback from an LLM-guided evaluation loop. We evaluate our system on a real-world assignment grading dataset of prompt injection attacks and demonstrate that our method consistently outperforms existing baselines, achieving superior robustness in both attack success and detection. Specifically, the attack success rate (ASR) reaches 1.0, representing an improvement of 0.26 over the baseline. For detection, the true positive rate (TPR) improves by 0.23 compared to the previous best work, reaching 0.84, and the true negative rate (TNR) remains comparable at 0.89. Ablation studies confirm the importance of co-evolution, gradient buffering, and multi-objective optimization. We also confirm that this framework is effective in different LLMs. Our results highlight the promise of adversarial training as a scalable and effective approach for guarding prompt injections.
- Abstract(参考訳): プロンプトインジェクション攻撃は、現実世界のアプリケーションにLLM(Large Language Models)を安全に配置する上で大きな課題となる。
プロンプトベースの検出は軽量で解釈可能な防衛戦略を提供するが、手動プロンプトエンジニアリングの必要性によってその効果は妨げられている。
この問題に対処するため、我々は、インジェクションスキーマのガードのための自動共進化フレームワークであるAEGISを提案する。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
このフレームワークは、攻撃者とディフェンダーの両方がTextual Gradient Optimization (TGO)モジュールを介して自律的に進化することを可能にし、LLM誘導評価ループからのフィードバックを活用する。
本研究では,本手法が既存のベースラインを一貫して上回り,攻撃成功と検出の両方において優れたロバスト性を実現していることを示す。
具体的には、攻撃成功率(ASR)が1.0に達し、ベースラインに対する0.26の改善を示している。
検出において、真正レート(TPR)は前回のベストワークに比べて0.23改善し、0.84に達し、真負レート(TNR)は0.89と同等である。
アブレーション研究は、共進化、勾配バッファリング、多目的最適化の重要性を裏付ける。
また、このフレームワークは異なるLLMに対して有効であることを確認した。
本研究は,即時注射の保護のためのスケーラブルで効果的なアプローチとして,対人訓練を約束することを強調した。
関連論文リスト
- Proactive Hardening of LLM Defenses with HASTE [0.614338876867286]
プロンプトベースの攻撃技術は、LLMベースのAIシステムをセキュアにデプロイし、保護する上で、大きな課題の1つだ。
本稿では,HASTE(Hard- negative Attack Sample Training Engine)について紹介する。
このフレームワークは、ハードネガティブまたはハード陽性のイテレーション戦略に対してファジングの有無にかかわらず、インジェクション検出の有効性を評価するために一般化することができる。
論文 参考訳(メタデータ) (2026-01-27T00:19:34Z) - Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers [21.207996237794855]
LLMに基づく即時最適化における毒性リスクの最初の体系的解析について述べる。
システムは、入力されたクエリよりも、操作されたフィードバックに対してかなり脆弱である。
本報告では, フェール・リワードの$Delta$ASR を, 実用性を低下させることなく 0.23 から 0.07 に削減する軽量ハイライトディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:28:54Z) - Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking [44.8238758047607]
既存の敵攻撃は、通常、単一点、欲張り世代における有害な反応を標的にしている。
本稿では,テールリスクを含む出力分布全体を明示的にモデル化する,逆評価のための新しいフレームワークを提案する。
我々のフレームワークはまた、異なる攻撃アルゴリズムが出力の害分布にどのように影響するかを分析することができる。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Semantic-Preserving Adversarial Attacks on LLMs: An Adaptive Greedy Binary Search Approach [15.658579092368981]
大規模言語モデル(LLM)は、ユーザ入力を洗練させ、応答精度を向上させるために、グラフィカルユーザインタフェース(GUI)における自動プロンプト工学に依存している。
本稿では, セマンティック安定性を維持しつつ, 共通的なプロンプト最適化機構をシミュレートするアダプティブ・グレディ・バイナリ・サーチ(AGBS)手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:41:06Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Unified Prompt Attack Against Text-to-Image Generation Models [30.24530622359188]
攻撃の観点からT2Iモデルのロバスト性を評価するためのフレームワークであるUPAMを提案する。
UPAMはテキストと視覚の両方に対する攻撃を統合する。
また、効率と効率性を改善するために列挙への依存を克服し、勾配ベースの最適化を可能にする。
論文 参考訳(メタデータ) (2025-02-23T03:36:18Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Targeted Physical-World Attention Attack on Deep Learning Models in Road
Sign Recognition [79.50450766097686]
本稿では,現実の道路標識攻撃に対するTAA手法を提案する。
実験の結果,TAA法は攻撃成功率(約10%)を向上し,RP2法と比較して摂動損失(約4分の1)を減少させることがわかった。
論文 参考訳(メタデータ) (2020-10-09T02:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。