論文の概要: RvB: Automating AI System Hardening via Iterative Red-Blue Games
- arxiv url: http://arxiv.org/abs/2601.19726v1
- Date: Tue, 27 Jan 2026 15:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.378673
- Title: RvB: Automating AI System Hardening via Iterative Red-Blue Games
- Title(参考訳): RvB: 反復的な赤青ゲームによるAIシステムのハードニングを自動化する
- Authors: Lige Huang, Zicheng Liu, Jie Zhang, Lewen Yan, Dongrui Liu, Jing Shao,
- Abstract要約: 本稿では,動的かつ反復的な適応硬化のためのフレームワークを提案する。
Red Teamは脆弱性を公開し、Blue Teamはパラメータを更新せずに効果的なソリューションを学ぶようになる。
この研究は、AIシステムの継続的な硬化を自動化する実践的パラダイムとして、反復的な敵インタラクションフレームワークを確立する。
- 参考スコア(独自算出の注目度): 40.26269114830439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dual offensive and defensive utility of Large Language Models (LLMs) highlights a critical gap in AI security: the lack of unified frameworks for dynamic, iterative adversarial adaptation hardening. To bridge this gap, we propose the Red Team vs. Blue Team (RvB) framework, formulated as a training-free, sequential, imperfect-information game. In this process, the Red Team exposes vulnerabilities, driving the Blue Team to learning effective solutions without parameter updates. We validate our framework across two challenging domains: dynamic code hardening against CVEs and guardrail optimization against jailbreaks. Our empirical results show that this interaction compels the Blue Team to learn fundamental defensive principles, leading to robust remediations that are not merely overfitted to specific exploits. RvB achieves Defense Success Rates of 90\% and 45\% across the respective tasks while maintaining near 0\% False Positive Rates, significantly surpassing baselines. This work establishes the iterative adversarial interaction framework as a practical paradigm that automates the continuous hardening of AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の二重攻撃性と防御ユーティリティは、AIセキュリティにおける重要なギャップを浮き彫りにしている。
このギャップを埋めるために、トレーニング不要でシーケンシャルで不完全な情報ゲームとして定式化されたRed Team vs. Blue Team (RvB)フレームワークを提案する。
このプロセスでは、Red Teamが脆弱性を公開し、Blue Teamはパラメータを更新せずに効果的なソリューションを学ぶようになる。
CVEに対する動的コードのハードニングと、Jailbreakに対するガードレール最適化です。
私たちの経験的な結果は、このインタラクションがBlue Teamを補完し、基本的な防御原則を学ぶことによって、特定のエクスプロイトに過度に適合するだけでなく、堅牢な修復につながることを示しています。
RvBは、各タスクで90倍、45倍の防衛成功率を達成し、偽陽性率を0倍近く維持し、ベースラインをはるかに上回っている。
この研究は、AIシステムの継続的な硬化を自動化する実践的パラダイムとして、反復的な敵インタラクションフレームワークを確立する。
関連論文リスト
- Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay [19.431152130507648]
大規模言語モデル(LLM)は目覚ましい能力を達成したが、敵のジェイルブレイク攻撃に弱いままである。
本稿では、アタッカー(ジェイルブレイクの発生)とディフェンダー(有害な要求を拒否)の両方として機能するシステムであるセーフティセルフプレイ(SSP)を紹介する。
SSPは、堅牢な防御能力を自律的に進化させ、静的な敵対的データセットでトレーニングされたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-15T17:00:16Z) - Automated Red-Teaming Framework for Large Language Model Security Assessment: A Comprehensive Attack Generation and Detection System [4.864011355064205]
本稿では,大規模言語モデル(LLM)におけるセキュリティ脆弱性を明らかにするための,敵のプロンプトを生成し,実行し,評価する自動リピートフレームワークを提案する。
本フレームワークは,メタプロンプトに基づく攻撃合成,マルチモーダル脆弱性検出,および6つの主要な脅威カテゴリにまたがる標準化された評価プロトコルを統合する。
GPT-OSS-20Bモデルの実験では、21の重大度と12の新たな攻撃パターンを含む47の異なる脆弱性が明らかになった。
論文 参考訳(メタデータ) (2025-12-21T19:12:44Z) - Automatic LLM Red Teaming [18.044879441434432]
我々は、AIを戦略的に破壊するように訓練する、新しいパラダイムを提案する。
生成エージェントは、きめ細かいトークンレベルのハーネス報酬を通じて、コヒーレントで多ターン攻撃戦略を学習する。
このアプローチは、ダイナミックな軌道ベースのプロセスとして、新しい最先端、根本的にリフレーミングなレッドチームを設定する。
論文 参考訳(メタデータ) (2025-08-06T13:52:00Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming [38.25556351567948]
textbfMulti-textbfTurn textbfSafety textbfAlignment (urapproach)フレームワーク。
レッドチームモデルは、敵のプロンプトを生成するために、思考誘導型マルチラウンドジェイルブレイク攻撃について学習する。
敵の反復最適化ステージ、レッドチームモデル、ターゲットモデルは、相互作用におけるそれぞれの能力を継続的に改善します。
論文 参考訳(メタデータ) (2025-05-22T08:22:57Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
本稿では,モデル自体が生成したデータを活用することで,セキュリティを向上させるための最適化フレームワークであるmathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)について紹介する。
論文 参考訳(メタデータ) (2024-08-05T16:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。