論文の概要: NAAMSE: Framework for Evolutionary Security Evaluation of Agents
- arxiv url: http://arxiv.org/abs/2602.07391v1
- Date: Sat, 07 Feb 2026 06:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.598111
- Title: NAAMSE: Framework for Evolutionary Security Evaluation of Agents
- Title(参考訳): NAAMSE:エージェントの進化的セキュリティ評価のためのフレームワーク
- Authors: Kunal Pai, Parth Shah, Harshil Patel,
- Abstract要約: 我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
- 参考スコア(独自算出の注目度): 1.0131895986034316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly deployed in production, yet their security evaluations remain bottlenecked by manual red-teaming or static benchmarks that fail to model adaptive, multi-turn adversaries. We propose NAAMSE, an evolutionary framework that reframes agent security evaluation as a feedback-driven optimization problem. Our system employs a single autonomous agent that orchestrates a lifecycle of genetic prompt mutation, hierarchical corpus exploration, and asymmetric behavioral scoring. By using model responses as a fitness signal, the framework iteratively compounds effective attack strategies while simultaneously ensuring "benign-use correctness", preventing the degenerate security of blanket refusal. Our experiments on Gemini 2.5 Flash demonstrate that evolutionary mutation systematically amplifies vulnerabilities missed by one-shot methods, with controlled ablations revealing that the synergy between exploration and targeted mutation uncovers high-severity failure modes. We show that this adaptive approach provides a more realistic and scalable assessment of agent robustness in the face of evolving threats. The code for NAAMSE is open source and available at https://github.com/HASHIRU-AI/NAAMSE.
- Abstract(参考訳): AIエージェントはますます本番環境にデプロイされているが、そのセキュリティ評価は、適応的でマルチターンの敵をモデル化できない手動のレッドチームや静的ベンチマークによってボトルネックになっている。
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
モデル応答を適合信号として使用することにより、フレームワークは「良否正当性」を同時に確保しつつ、効果的な攻撃戦略を反復的に合成し、ブランケット拒絶の退化を防止できる。
Gemini 2.5 Flashに関する我々の実験は、進化的突然変異が1ショット法で欠落した脆弱性を体系的に増幅することを示した。
この適応的アプローチは、進化する脅威に直面したエージェントの堅牢性をより現実的でスケーラブルに評価できることを示す。
NAAMSEのコードはオープンソースでhttps://github.com/HashiRU-AI/NAAMSEで公開されている。
関連論文リスト
- Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening [23.066685616914807]
効果的なエージェントセキュリティは、アーキテクチャ上の分離や強制よりも、本質的で選択的であるべきだ、と我々は主張する。
我々はスパイダーセンス・フレームワークを提案する。スパイダーセンス・フレームワークは、エージェントが潜伏警戒を維持し、リスク認識によってのみ防御をトリガーすることができる。
スパイダーセンスは、最低攻撃成功率(ASR)と偽陽性率(FPR)を達成して、競争力または優れた防御性能を達成する
論文 参考訳(メタデータ) (2026-02-05T07:11:05Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Biosecurity-Aware AI: Agentic Risk Auditing of Soft Prompt Attacks on ESM-Based Variant Predictors [4.781986758380065]
本稿では,GFMの敵対的脆弱性を監査するためのエージェントフレームワークであるSecure Agentic Genomic Evaluator (SAGE)を紹介する。
SAGEを用いて、ESM2のような最先端のGFMでさえ、標的となるソフトプロンプト攻撃に敏感であることがわかった。
論文 参考訳(メタデータ) (2025-12-19T00:51:11Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.69865074060139]
エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。
我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLSM上に構築されたエージェントにも影響を及ぼすことが判明した。
我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
論文 参考訳(メタデータ) (2025-09-30T14:55:55Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - Mind the Gap: Evaluating Model- and Agentic-Level Vulnerabilities in LLMs with Action Graphs [1.036334370262262]
本稿では,エージェント実行を粒度のアクションとコンポーネントグラフに分解する可観測性に基づく評価フレームワークであるAgenSeerを紹介する。
モデルレベルとエージェントレベルの脆弱性プロファイルの根本的な違いを示す。
エージェントレベルの評価は、従来の評価には見えないエージェント固有のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-09-05T04:36:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。