論文の概要: AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security
- arxiv url: http://arxiv.org/abs/2504.20965v1
- Date: Tue, 29 Apr 2025 17:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.018532
- Title: AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security
- Title(参考訳): AegisLLM:LLMセキュリティにおける自己反射防御のためのエージェントシステムのスケーリング
- Authors: Zikui Cai, Shayan Shabihi, Bang An, Zora Che, Brian R. Bartoldson, Bhavya Kailkhura, Tom Goldstein, Furong Huang,
- Abstract要約: AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
- 参考スコア(独自算出の注目度): 74.22452069013289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce AegisLLM, a cooperative multi-agent defense against adversarial attacks and information leakage. In AegisLLM, a structured workflow of autonomous agents - orchestrator, deflector, responder, and evaluator - collaborate to ensure safe and compliant LLM outputs, while self-improving over time through prompt optimization. We show that scaling agentic reasoning system at test-time - both by incorporating additional agent roles and by leveraging automated prompt optimization (such as DSPy)- substantially enhances robustness without compromising model utility. This test-time defense enables real-time adaptability to evolving attacks, without requiring model retraining. Comprehensive evaluations across key threat scenarios, including unlearning and jailbreaking, demonstrate the effectiveness of AegisLLM. On the WMDP unlearning benchmark, AegisLLM achieves near-perfect unlearning with only 20 training examples and fewer than 300 LM calls. For jailbreaking benchmarks, we achieve 51% improvement compared to the base model on StrongReject, with false refusal rates of only 7.9% on PHTest compared to 18-55% for comparable methods. Our results highlight the advantages of adaptive, agentic reasoning over static defenses, establishing AegisLLM as a strong runtime alternative to traditional approaches based on model modifications. Code is available at https://github.com/zikuicai/aegisllm
- Abstract(参考訳): 敵攻撃と情報漏洩に対する協調的マルチエージェント防御であるAegisLLMを紹介する。
AegisLLMでは、オーケストレータ、偏向器、応答器、評価器といった自律エージェントの構造化ワークフローが協力して、安全かつコンプライアンスのLLM出力を確保し、迅速な最適化を通じて時間をかけて自己改善を行う。
テスト時にエージェント推論システムをスケールすることは、追加のエージェントの役割を取り入れることと、自動的なプロンプト最適化(DSPyなど)を利用することの両方で、モデルの有用性を損なうことなく、ロバスト性を大幅に向上することを示します。
このテストタイムディフェンスは、モデルの再トレーニングを必要とせず、攻撃の進化に対するリアルタイム適応性を実現する。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
WMDPアンラーニングベンチマークでは、AegisLLMは20のトレーニング例と300 LMコール未満でほぼ完璧なアンラーニングを達成している。
ジェイルブレイクベンチマークでは、StrongRejectのベースモデルと比較して51%の改善を実現しています。
モデル修正に基づく従来のアプローチに代わる強力なランタイムとして,AegisLLMを確立することで,静的防御に対する適応的,エージェント的推論の利点を強調した。
コードはhttps://github.com/zikuicai/aegisllmで入手できる。
関連論文リスト
- STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models [31.35788474507371]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対してますます脆弱になっている。
本稿では,リアルタイムジェイルブレイク判定のための軽量フレームワークSTShieldを紹介する。
論文 参考訳(メタデータ) (2025-03-23T04:23:07Z) - Adaptive Attacks Break Defenses Against Indirect Prompt Injection Attacks on LLM Agents [3.5248694676821484]
我々は8つの異なる防御効果を評価し、それら全てを適応攻撃を用いてバイパスし、連続して50%以上の攻撃成功率を達成する。
本研究は,ロバスト性と信頼性を確保するために,防御設計における適応攻撃評価の必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-27T04:04:50Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - Self-Evaluation as a Defense Against Adversarial Attacks on LLMs [20.79833694266861]
自己評価を生かした LLM に対する敵攻撃に対する防御策を導入する。
本手法では, モデル微調整を必要とせず, 生成モデルの入力と出力を評価するために, 事前学習モデルを用いる。
提案手法の有効性を解析し, 各種設定で評価器を攻撃しようとする試みを含む。
論文 参考訳(メタデータ) (2024-07-03T16:03:42Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference [4.478182379059458]
FidesはML-as-a-Service(ML)推論のリアルタイム整合性検証のための新しいフレームワークである。
Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。
攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。
論文 参考訳(メタデータ) (2023-03-31T19:17:30Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。