論文の概要: OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2601.01592v1
- Date: Sun, 04 Jan 2026 16:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.550724
- Title: OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs
- Title(参考訳): OpenRT:マルチモーダルLLMのためのオープンソースのレッドチームフレームワーク
- Authors: Xin Wang, Yunhao Chen, Juncheng Li, Yixu Wang, Yang Yao, Tianle Gu, Jie Li, Yan Teng, Xingjun Ma, Yingchun Wang, Xia Hu,
- Abstract要約: MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。
OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
- 参考スコア(独自算出の注目度): 52.287708819682514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)のクリティカルなアプリケーションへの迅速な統合は、永続的な安全性の脆弱性によってますます妨げられている。
しかしながら、既存のレッドチームベンチマークは断片化され、シングルターンのテキストインタラクションに限定され、体系的な評価に必要なスケーラビリティが欠如していることが多い。
これを解決するために,総合的なMLLM安全性評価のために設計された,統一的でモジュール化された高スループットのレッドチームフレームワークであるOpenRTを紹介した。
OpenRTのアーキテクチャの中心となるのは、モデル統合、データセット管理、アタック戦略、メソッドの判断、評価メトリクスという5つの重要な側面にわたるモジュラー分離を可能にする、対向カーネルを導入することで、自動リピートにおけるパラダイムシフトだ。
攻撃インターフェイスの標準化により、高スループットの非同期ランタイムから逆ロジックを分離し、多様なモデルにまたがる体系的なスケーリングを可能にする。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
20の先進モデル(GPT-5.2、Claude 4.5、Gemini 3 Proを含む)に関する広範な実証研究を通じて、我々は重大な安全性のギャップを明らかにしている。
特に, 複雑なマルチターンジェイルブレイクに対して, 推論モデルは本質的に優れた堅牢性を持っていないことが明らかとなった。
OpenRTをオープンソース化することで、持続可能な、拡張可能な、継続的なメンテナンスインフラストラクチャを提供し、AI安全性の開発と標準化を加速します。
関連論文リスト
- Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations [0.0]
MLLM(Multimodal large language model)は目覚ましい進歩を遂げているが、敵の攻撃に対して致命的な脆弱さを保っている。
本稿では,視覚言語モデルと音声言語モデルの両方を対象として,マルチモーダルジェイルブレイクの体系的研究を行う。
評価は3つのハイリスク安全性カテゴリで1,900件の対人プロンプトにまたがる。
論文 参考訳(メタデータ) (2025-10-23T05:16:33Z) - ARMs: Adaptive Red-Teaming Agent against Multimodal Models with Plug-and-Play Attacks [30.39725685183195]
視覚言語モデル(VLM)に対する包括的リスク評価を行う適応型レッドチームエージェントARMを提案する。
ターゲットとなる有害な振る舞いやリスク定義を前提として、ARMは推論強化されたマルチステップオーケストレーションを使用して、多様な赤チーム戦略を自動的に最適化する。
ARMが生成するリピートインスタンスの多様性は著しく高く,VLMの新たな脆弱性が明らかになった。
論文 参考訳(メタデータ) (2025-10-03T02:28:02Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。