論文の概要: Proteus: A Self-Evolving Red Team for Agent Skill Ecosystems
- arxiv url: http://arxiv.org/abs/2605.11891v1
- Date: Tue, 12 May 2026 10:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.78548
- Title: Proteus: A Self-Evolving Red Team for Agent Skill Ecosystems
- Title(参考訳): Proteus: エージェントスキルエコシステムのための自己進化型レッドチーム
- Authors: Zhaojiacheng Zhou,
- Abstract要約: エージェントスキルは実行可能な振る舞いとコンテキスト設定ドキュメンテーションの両方を公開する。
現実的な攻撃者は、監査と実行時のフィードバックを使って、繰り返しスキルを書き直すことができる。
Proteusは形式化された5軸スキルアタックスペースを検索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent skills extend LLM agents with reusable instructions, tool interfaces, and executable code, and users increasingly install third-party skills from marketplaces, repositories, and community channels. Because a skill exposes both executable behavior and context-setting documentation, its deployment risk cannot be measured by single-shot audits or prompt-level red teams alone: a realistic attacker can use audit and runtime feedback to repeatedly rewrite the skill. We frame this risk as \emph{adaptive leakage} -- whether a budgeted attacker can iteratively revise a skill until it passes audit and produces verified runtime harm -- and present \ours{}, a grey-box self-evolving red-team framework for measuring it. Proteus searches a formalized five-axis skill-attack space. Each candidate is evaluated through a unified audit-sandbox-oracle pipeline that returns structured audit findings and runtime evidence to guide cross-round mutation. Beyond initial evasion, Proteus performs path expansion, which finds alternative implementations of successful attacks, and surface expansion, which transfers learned implementation patterns to new attack objectives beyond the original seed catalogue. Across eight phase-1 cells, Proteus reaches 40--90\% Attack Success Rate at $5$ rounds (ASR@5) with positive learning-curve slopes on both evaluated auditors. Phase-2 path/surface expansion produces 438 jointly bypassing and lethal variants, with SkillVetter bypassed at $\geq 93\%$ in every cell and AI-Infra-Guard, the strongest public auditor we evaluate, still admitting up to 41.3\% joint-success. These results show that current skill vetting substantially underestimates residual risk when evaluated against adaptive, feedback-driven attackers.
- Abstract(参考訳): エージェントスキルは、再利用可能なインストラクション、ツールインターフェース、実行可能コードを備えたLLMエージェントを拡張し、マーケットプレース、リポジトリ、コミュニティチャネルからのサードパーティスキルをますますインストールする。
スキルは実行可能な振る舞いとコンテキスト設定の両方を公開しているため、そのデプロイメントリスクはシングルショットの監査やプロンプトレベルのレッドチームだけで測定することはできない。
私たちはこのリスクを,‘emph{adaptive leakage}’ – 監査をパスして検証されたランタイム障害が発生するまで,予算のある攻撃者がスキルを反復的に修正できるかどうか – として捉えています。
Proteusは形式化された5軸スキルアタックスペースを検索する。
各候補は、構造化監査結果と実行時のエビデンスを返却して、クロスラウンドな突然変異を誘導する統合監査・サンドボックス・オーラクルパイプラインを通じて評価される。
初期回避以外にも、Proteusはパス拡張を実行して、成功した攻撃の代替実装を見つけ、サーフェス拡張を行い、学習した実装パターンをオリジナルのシードカタログを超えた新たな攻撃目標に転送する。
8つのフェーズ-1細胞にわたって、Proteusは40--90\%のアタック成功率を5ドル(ASR@5)で達成し、両方の評価監査者に対して肯定的な学習曲線傾斜を達成した。
フェーズ2パス/地上拡張は438の共用バイパスと致命的な変種を生成し、SkillVetterはすべてのセルで$\geq 93\%でバイパスされ、AI-赤外線ガードは私たちが評価した最強の公衆監査官であり、なおも41.3\%のジョイント・サクセスを認めている。
これらの結果から,適応的,フィードバック駆動型攻撃者に対する評価において,現在のスキルベッティングは残余リスクを著しく過小評価することがわかった。
関連論文リスト
- Agentic Adversarial Rewriting Exposes Architectural Vulnerabilities in Black-Box NLP Pipelines [34.37967130277969]
本稿では,意味摂動空間で動作する2エージェント回避フレームワークを提案する。
現代大言語モデル(LLM)ベースのシステムでは、普及率は19.95から40.34%である。
パターンインフォームド・ディフェンスは回避率を65.18%まで下げる。
論文 参考訳(メタデータ) (2026-04-26T00:58:36Z) - SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems [35.65937852381774]
Document-Driven Implicit Payload Execution (DDIPE)は、コード例や設定テンプレートに悪意のあるロジックを埋め込む。
我々は15のMITRE ATTACKカテゴリで81種から1,070の対逆スキルを生成した。
DDIPEは11.6%から33.5%のバイパス率を獲得し、明示的な命令攻撃は強い防御下で0%を達成する。
論文 参考訳(メタデータ) (2026-04-03T14:58:58Z) - Profit is the Red Team: Stress-Testing Agents in Strategic Economic Interactions [2.0415910628419067]
我々は,手作りの攻撃を,その利益を最大化するために訓練された学習相手に置き換えるストレステストプロトコルである,利益主導のレッドチームを提案する。
我々はこれを4つの標準的経済相互作用のリーンアリーナでインスタンス化し、適応的利用性のための制御されたテストベッドを提供する。
評価エピソードをエージェントの簡潔なプロンプトルールに抽出し, 従来観測されていた障害を非効率にし, 目標性能を大幅に向上させる。
論文 参考訳(メタデータ) (2026-03-21T19:56:54Z) - Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review [6.417595678110472]
ソフトウェアサプライチェーン攻撃において,確認バイアスがLSMベースの脆弱性検出に影響を及ぼすか,また,この障害モードを悪用できるかを検討する。
調査1では,5つのフレーミング条件下で4つの最先端モデルに対して評価された250個のCVE脆弱性/パッチペアに対する制御実験により,確認バイアスを定量化する。
調査2は、既知の脆弱性を再導入する敵のプルリクエストを模倣して、セキュリティの改善やプルリクエストメタデータによる緊急機能修正を実施可能であることを評価する。
論文 参考訳(メタデータ) (2026-03-19T10:40:27Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。