論文の概要: AgenticRed: Optimizing Agentic Systems for Automated Red-teaming
- arxiv url: http://arxiv.org/abs/2601.13518v1
- Date: Tue, 20 Jan 2026 02:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.118307
- Title: AgenticRed: Optimizing Agentic Systems for Automated Red-teaming
- Title(参考訳): AgenticRed: 自動再チームのエージェントシステム最適化
- Authors: Jiayi Yuan, Jonathan Nöther, Natasha Jaques, Goran Radanović,
- Abstract要約: 我々は人的介入なしに反復的に赤チームシステムを設計・洗練するための自動パイプラインであるAgenticRedを紹介した。
メタエージェントサーチなどの手法に触発されて,進化的選択を用いたエージェントシステムを進化させる新しい手法を開発した。
AgenticRedが設計したレッドチームシステムは、最先端のアプローチを一貫して上回っている。
- 参考スコア(独自算出の注目度): 10.257924099620295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent automated red-teaming methods show promise for systematically exposing model vulnerabilities, most existing approaches rely on human-specified workflows. This dependence on manually designed workflows suffers from human biases and makes exploring the broader design space expensive. We introduce AgenticRed, an automated pipeline that leverages LLMs' in-context learning to iteratively design and refine red-teaming systems without human intervention. Rather than optimizing attacker policies within predefined structures, AgenticRed treats red-teaming as a system design problem. Inspired by methods like Meta Agent Search, we develop a novel procedure for evolving agentic systems using evolutionary selection, and apply it to the problem of automatic red-teaming. Red-teaming systems designed by AgenticRed consistently outperform state-of-the-art approaches, achieving 96% attack success rate (ASR) on Llama-2-7B (36% improvement) and 98% on Llama-3-8B on HarmBench. Our approach exhibits strong transferability to proprietary models, achieving 100% ASR on GPT-3.5-Turbo and GPT-4o-mini, and 60% on Claude-Sonnet-3.5 (24% improvement). This work highlights automated system design as a powerful paradigm for AI safety evaluation that can keep pace with rapidly evolving models.
- Abstract(参考訳): 最近の自動化されたリピート手法は、モデル脆弱性を体系的に露呈する可能性を示しているが、既存のアプローチのほとんどは、人間仕様のワークフローに依存している。
この手動設計ワークフローへの依存は、人間の偏見に悩まされ、より広いデザインスペースを探索するのにコストがかかる。
我々は,LLMのコンテキスト内学習を活用した自動パイプラインであるAgenticRedを導入し,人間の介入なしに反復的にレッドチームシステムを設計・洗練する。
事前に定義された構造内でアタッカーポリシーを最適化するのではなく、AgenticRedはシステム設計の問題としてレッドチームを扱う。
メタエージェントサーチなどの手法に着想を得て,進化的選択を用いたエージェントシステムを進化させる新しい手法を開発し,それを自動リピート問題に適用する。
AgenticRedが設計したレッドチームシステムは、常に最先端のアプローチより優れており、Llama-2-7Bで96%、HarmBenchで98%の攻撃成功率(ASR)を達成した。
提案手法は, GPT-3.5-Turbo および GPT-4o-mini で100% ASR , Claude-Sonnet-3.5 で60% (24% 改良) を達成し,プロプライエタリモデルへの強い転送性を示す。
この研究は、AIの安全性評価のための強力なパラダイムとして、自動システム設計を強調し、急速に進化するモデルに追随することができる。
関連論文リスト
- ROAD: Reflective Optimization via Automated Debugging for Zero-Shot Agent Alignment [1.6968020497268546]
ROADは、最適化を検索ではなく動的デバッグ調査として扱う新しいフレームワークである。
道路はサンプリング効率が高く、成功率は5.6%、検索精度は3.8%向上している。
これらの結果は、ヒューマンエンジニアリングの失敗分析とパッチングのループを模倣することで、リソース集約的なトレーニングに代わる、実行可能なデータ効率の代替が可能になることを示唆している。
論文 参考訳(メタデータ) (2025-12-30T07:31:34Z) - SIRAJ: Diverse and Efficient Red-Teaming for LLM Agents via Distilled Structured Reasoning [18.219912912964812]
我々は、任意のブラックボックスLLMエージェントのための一般的なレッドチームフレームワークであるSIRAJを紹介する。
エージェント定義から始まり、多様なシードテストケースを生成する動的2段階プロセスを採用する。
それは、以前の試みの実行軌跡に基づいて、モデルベースの敵攻撃を反復的に構築し、洗練する。
論文 参考訳(メタデータ) (2025-10-30T00:32:58Z) - Introducing LongCat-Flash-Thinking: A Technical Report [116.75498493511026]
LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。
高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。
LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T10:25:48Z) - SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence [28.042768995386037]
自動エージェントシステム生成のためのフレームワークであるSwarmAgenticを提案する。
SwarmAgenticはエージェントシステムをスクラッチから構築し、エージェント機能とコラボレーションを共同で最適化する。
提案手法を,高レベル計画,システムレベルの調整,創造的推論を含む6つの実世界,オープンエンド,探索的タスクで評価する。
論文 参考訳(メタデータ) (2025-06-18T17:54:55Z) - CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [68.73212422583548]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration [40.350632196772466]
本稿では,大規模言語モデル(LLM)に対する完全自動化とエンドツーエンドのレッドコラボレーションのための新しいフレームワークであるAutoRedTeamerを紹介する。
AutoRedTeamerはマルチエージェントアーキテクチャとメモリ誘導型攻撃選択機構を組み合わせることで、新たな攻撃ベクトルの継続的な発見と統合を可能にする。
我々は、さまざまな評価設定でAutoRedTeamerの有効性を示し、HarmBenchのLlama-3.1-70Bに対する攻撃成功率を20%向上させた。
論文 参考訳(メタデータ) (2025-03-20T00:13:04Z) - Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.641299901038316]
AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。
このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。
本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文 参考訳(メタデータ) (2025-02-17T03:05:20Z) - A Multi-AI Agent System for Autonomous Optimization of Agentic AI Solutions via Iterative Refinement and LLM-Driven Feedback Loops [3.729242965449096]
本稿では,産業間におけるエージェントAIソリューションを自律的に最適化するフレームワークを提案する。
このフレームワークは、仮説を自律的に生成し、テストすることで、人間の入力なしに最適な性能を達成する。
ケーススタディでは、アウトプットの品質、妥当性、動作性が大幅に改善された。
論文 参考訳(メタデータ) (2024-12-22T20:08:04Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。