論文の概要: RedTWIZ: Diverse LLM Red Teaming via Adaptive Attack Planning
- arxiv url: http://arxiv.org/abs/2510.06994v1
- Date: Wed, 08 Oct 2025 13:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.509417
- Title: RedTWIZ: Diverse LLM Red Teaming via Adaptive Attack Planning
- Title(参考訳): RedTWIZ:アダプティブアタックプランニングによる逆LLMレッドチーム
- Authors: Artur Horal, Daniel Pina, Henrique Paz, Iago Paulo, João Soares, Rafael Ferreira, Diogo Tavares, Diogo Glória-Silva, João Magalhães, David Semedo,
- Abstract要約: RedTWIZは適応的で多様なマルチターンレッドチームリングフレームワークである。
AI支援ソフトウェア開発における大規模言語モデルの堅牢性を評価するように設計されている。
- 参考スコア(独自算出の注目度): 6.842844968623326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the vision, scientific contributions, and technical details of RedTWIZ: an adaptive and diverse multi-turn red teaming framework, to audit the robustness of Large Language Models (LLMs) in AI-assisted software development. Our work is driven by three major research streams: (1) robust and systematic assessment of LLM conversational jailbreaks; (2) a diverse generative multi-turn attack suite, supporting compositional, realistic and goal-oriented jailbreak conversational strategies; and (3) a hierarchical attack planner, which adaptively plans, serializes, and triggers attacks tailored to specific LLM's vulnerabilities. Together, these contributions form a unified framework -- combining assessment, attack generation, and strategic planning -- to comprehensively evaluate and expose weaknesses in LLMs' robustness. Extensive evaluation is conducted to systematically assess and analyze the performance of the overall system and each component. Experimental results demonstrate that our multi-turn adversarial attack strategies can successfully lead state-of-the-art LLMs to produce unsafe generations, highlighting the pressing need for more research into enhancing LLM's robustness.
- Abstract(参考訳): 本稿では、AI支援ソフトウェア開発における大規模言語モデル(LLM)の堅牢性を評価するために、適応的で多様な多ターンレッドチームリングフレームワークであるRedTWIZのビジョン、科学的コントリビューション、技術的詳細について述べる。
本研究は,(1)LLMの会話ジェイルブレイクの堅牢で体系的な評価,(2)構成的,現実的,目標志向の会話戦略をサポートする多様な生成的マルチターン攻撃スイート,(3)特定のLLMの脆弱性に合わせた攻撃を適応的に計画し,シリアライズし,トリガーする階層的攻撃プランナ,の3つの主要な研究ストリームによって推進されている。
これらのコントリビューションは、LLMの堅牢性の弱点を包括的に評価し、公開するために、統合されたフレームワーク(アセスメント、アタック生成、戦略的計画)を形成する。
システム全体と各コンポーネントのパフォーマンスを体系的に評価し、分析するために、広範囲な評価を行う。
実験結果から、我々のマルチターン敵攻撃戦略は、最先端のLLMを安全でない世代に導くことに成功し、LLMの堅牢性を高めるためのさらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem [3.3821226324715403]
大規模言語モデル(LLM)は、シングルモーダルシステムからマルチモーダルLLMやインテリジェントエージェントへと急速に進化している。
本稿では,LLMエコシステムにおけるジェイルブレイク攻撃の複雑化とそれに対応する防御機構について,系統的な調査を行った。
論文 参考訳(メタデータ) (2025-06-18T06:33:19Z) - A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。
このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文 参考訳(メタデータ) (2025-05-06T05:32:46Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) [17.670925982912312]
Red-teamingは、大規模言語モデル(LLM)の脆弱性を特定するテクニックである。
本稿では,LLM に対するリピート攻撃に関する詳細な脅威モデルを提案し,知識の体系化(SoK)を提供する。
論文 参考訳(メタデータ) (2024-07-20T17:05:04Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。