論文の概要: Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours
- arxiv url: http://arxiv.org/abs/2605.04019v1
- Date: Tue, 05 May 2026 17:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.068719
- Title: Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours
- Title(参考訳): エージェント時代のAIレッドチームを再定義する: 数週間から数時間
- Authors: Raja Sekhar Rao Dheekonda, Will Pearce, Nick Landers,
- Abstract要約: オープンソースDreadnode SDK上に構築されたAIレッドチームエージェントを紹介する。
エージェントは、接地された敵攻撃、450以上の変換、130以上のスコアを発生させる。
オペレータはマルチエージェントシステム、マルチ言語、ターゲットを探索し、実装方法ではなく、何をプローブすべきかに焦点を当てる。
- 参考スコア(独自算出の注目度): 0.29342347743009217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems are entering critical domains like healthcare, finance, and defense, yet remain vulnerable to adversarial attacks. While AI red teaming is a primary defense, current approaches force operators into manual, library-specific workflows. Operators spend weeks hand-crafting workflows - assembling attacks, transforms, and scorers. When results fall short, workflows must be rebuilt. As a result, operators spend more time constructing workflows than probing targets for security and safety vulnerabilities. We introduce an AI red teaming agent built on the open-source Dreadnode SDK. The agent creates workflows grounded in 45+ adversarial attacks, 450+ transforms, and 130+ scorers. Operators can probe multi-agent systems, multilingual, and multimodal targets, focusing on what to probe rather than how to implement it. We make three contributions: 1. Agentic interface. Operators describe goals in natural language via the Dreadnode TUI (Terminal User Interface). The agent handles attack selection, transform composition, execution, and reporting, letting operators focus on red teaming. Weeks compress to hours. 2. Unified framework. A single framework for probing traditional ML models (adversarial examples) and generative AI systems (jailbreaks), removing the need for separate libraries. 3. Llama Scout case study. We red team Meta Llama Scout and achieve an 85% attack success rate with severity up to 1.0, using zero human-developed code
- Abstract(参考訳): AIシステムは、医療、金融、防衛といった重要な領域に入るが、敵の攻撃には弱いままだ。
AIのレッドチーム化は主要な防御手段だが、現在のアプローチではオペレータを手動でライブラリ固有のワークフローに強制している。
オペレータは数週間、アタック、トランスフォーメーション、スコアラーを組み立てる手作りワークフローに費やします。
結果が不足すると、ワークフローを再構築する必要があります。
その結果、オペレータは、セキュリティと安全性の脆弱性のターゲットを探すよりも、ワークフローの構築に多くの時間を費やしている。
オープンソースDreadnode SDK上に構築されたAIレッドチームエージェントを紹介する。
エージェントは45以上の敵攻撃、450以上の変換、130以上のスコアラーからなるワークフローを作成する。
オペレータはマルチエージェントシステム、マルチリンガル、マルチモーダルターゲットを探索し、実装方法ではなく、何をプローブすべきかに焦点を当てる。
私たちは3つのコントリビューションを行います。
1.エージェントインタフェース
オペレータは、Dreadnode TUI (Terminal User Interface)を介して自然言語で目標を記述する。
エージェントは攻撃の選択、コンポジションの変換、実行、レポートを処理する。
週は数時間に圧縮される。
2.統一フレームワーク。
従来のMLモデル(逆の例)と生成AIシステム(ジェイルブレイク)を探索するための単一のフレームワークで、別々のライブラリの必要性を排除している。
ラマスカウト事件研究
私たちはMeta Llama Scoutをレッドチームとして、人間が開発したコードゼロを使用して、重度で85%の攻撃成功率を達成した。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence [1.1637186977447433]
完全コンポーネントを得ることなく、不完全なコンポーネントを慎重にオーケストレーションすることで信頼性を実現することができることを示す。
本稿では,このようなシステムのアーキテクチャについて述べる。特殊エージェントチーム(プランナ,実行者,評論家,専門家)。
提案手法は,ユーザの露出前に90%以上の内部エラーインターセプションを達成し,許容可能なレイテンシトレードオフを維持していることを示す。
論文 参考訳(メタデータ) (2026-01-20T17:19:09Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - RedCodeAgent: Automatic Red-teaming Agent against Diverse Code Agents [70.24175620901538]
コードエージェントは、強力なコード生成機能とコードインタプリタとの統合により、広く採用されている。
現在の静的安全性ベンチマークとレッドチームツールは、出現する現実世界のリスクシナリオを特定するのに不十分である。
我々はRedCodeAgentを提案する。RedCodeAgentは、多様なコードエージェントの脆弱性を体系的に発見するように設計された、最初の自動リピートエージェントである。
論文 参考訳(メタデータ) (2025-10-02T22:59:06Z) - CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [68.73212422583548]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models [33.1538965735133]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。
4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。
GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
論文 参考訳(メタデータ) (2024-08-15T17:23:10Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。