論文の概要: AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema
- arxiv url: http://arxiv.org/abs/2509.00088v1
- Date: Wed, 27 Aug 2025 12:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.066903
- Title: AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema
- Title(参考訳): AEGIS : プロンプトインジェクションスキーマの保護のための自動共進化フレームワーク
- Authors: Ting-Chun Liu, Ching-Yu Hsu, Kuan-Yi Lee, Chi-An Fu, Hung-yi Lee,
- Abstract要約: AEGISは,プロンプトインジェクションのガードのための自動共進化フレームワークである。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
本研究では,実世界のアサイングレーティングデータセットを用いたインジェクション攻撃の評価を行い,本手法が既存のベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 39.44407870355891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection attacks pose a significant challenge to the safe deployment of Large Language Models (LLMs) in real-world applications. While prompt-based detection offers a lightweight and interpretable defense strategy, its effectiveness has been hindered by the need for manual prompt engineering. To address this issue, we propose AEGIS , an Automated co-Evolutionary framework for Guarding prompt Injections Schema. Both attack and defense prompts are iteratively optimized against each other using a gradient-like natural language prompt optimization technique. This framework enables both attackers and defenders to autonomously evolve via a Textual Gradient Optimization (TGO) module, leveraging feedback from an LLM-guided evaluation loop. We evaluate our system on a real-world assignment grading dataset of prompt injection attacks and demonstrate that our method consistently outperforms existing baselines, achieving superior robustness in both attack success and detection. Specifically, the attack success rate (ASR) reaches 1.0, representing an improvement of 0.26 over the baseline. For detection, the true positive rate (TPR) improves by 0.23 compared to the previous best work, reaching 0.84, and the true negative rate (TNR) remains comparable at 0.89. Ablation studies confirm the importance of co-evolution, gradient buffering, and multi-objective optimization. We also confirm that this framework is effective in different LLMs. Our results highlight the promise of adversarial training as a scalable and effective approach for guarding prompt injections.
- Abstract(参考訳): プロンプトインジェクション攻撃は、現実世界のアプリケーションにLLM(Large Language Models)を安全に配置する上で大きな課題となる。
プロンプトベースの検出は軽量で解釈可能な防衛戦略を提供するが、手動プロンプトエンジニアリングの必要性によってその効果は妨げられている。
この問題に対処するため、我々は、インジェクションスキーマのガードのための自動共進化フレームワークであるAEGISを提案する。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
このフレームワークは、攻撃者とディフェンダーの両方がTextual Gradient Optimization (TGO)モジュールを介して自律的に進化することを可能にし、LLM誘導評価ループからのフィードバックを活用する。
本研究では,本手法が既存のベースラインを一貫して上回り,攻撃成功と検出の両方において優れたロバスト性を実現していることを示す。
具体的には、攻撃成功率(ASR)が1.0に達し、ベースラインに対する0.26の改善を示している。
検出において、真正レート(TPR)は前回のベストワークに比べて0.23改善し、0.84に達し、真負レート(TNR)は0.89と同等である。
アブレーション研究は、共進化、勾配バッファリング、多目的最適化の重要性を裏付ける。
また、このフレームワークは異なるLLMに対して有効であることを確認した。
本研究は,即時注射の保護のためのスケーラブルで効果的なアプローチとして,対人訓練を約束することを強調した。
関連論文リスト
- Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking [44.8238758047607]
既存の敵攻撃は、通常、単一点、欲張り世代における有害な反応を標的にしている。
本稿では,テールリスクを含む出力分布全体を明示的にモデル化する,逆評価のための新しいフレームワークを提案する。
我々のフレームワークはまた、異なる攻撃アルゴリズムが出力の害分布にどのように影響するかを分析することができる。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Unified Prompt Attack Against Text-to-Image Generation Models [30.24530622359188]
攻撃の観点からT2Iモデルのロバスト性を評価するためのフレームワークであるUPAMを提案する。
UPAMはテキストと視覚の両方に対する攻撃を統合する。
また、効率と効率性を改善するために列挙への依存を克服し、勾配ベースの最適化を可能にする。
論文 参考訳(メタデータ) (2025-02-23T03:36:18Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。