論文の概要: Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security
- arxiv url: http://arxiv.org/abs/2507.22037v1
- Date: Tue, 29 Jul 2025 17:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.776253
- Title: Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security
- Title(参考訳): Secure Tug-of-War (SecTOW): マルチモーダルモデルセキュリティのための強化学習による反復防衛支援訓練
- Authors: Muzhi Dai, Shixuan Liu, Zhiyuan Zhao, Junyu Gao, Hao Sun, Xuelong Li,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 63.41350337821108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of multimodal large language models (MLLMs) has led to breakthroughs in various applications, yet their security remains a critical challenge. One pressing issue involves unsafe image-query pairs--jailbreak inputs specifically designed to bypass security constraints and elicit unintended responses from MLLMs. Compared to general multimodal data, such unsafe inputs are relatively sparse, which limits the diversity and richness of training samples available for developing robust defense models. Meanwhile, existing guardrail-type methods rely on external modules to enforce security constraints but fail to address intrinsic vulnerabilities within MLLMs. Traditional supervised fine-tuning (SFT), on the other hand, often over-refuses harmless inputs, compromising general performance. Given these challenges, we propose Secure Tug-of-War (SecTOW), an innovative iterative defense-attack training method to enhance the security of MLLMs. SecTOW consists of two modules: a defender and an auxiliary attacker, both trained iteratively using reinforcement learning (GRPO). During the iterative process, the attacker identifies security vulnerabilities in the defense model and expands jailbreak data. The expanded data are then used to train the defender, enabling it to address identified security vulnerabilities. We also design reward mechanisms used for GRPO to simplify the use of response labels, reducing dependence on complex generative labels and enabling the efficient use of synthetic data. Additionally, a quality monitoring mechanism is used to mitigate the defender's over-refusal of harmless inputs and ensure the diversity of the jailbreak data generated by the attacker. Experimental results on safety-specific and general benchmarks demonstrate that SecTOW significantly improves security while preserving general performance.
- Abstract(参考訳): MLLM(Multimodal large language model)の急速な進歩は、様々なアプリケーションにブレークスルーをもたらしたが、セキュリティは依然として重要な課題である。
セキュリティ上の制約を回避し、MLLMからの意図しない応答を誘発するように特別に設計されたジェイルブレイクインプット。
一般的なマルチモーダルデータと比較すると、そのような安全でない入力は比較的疎いため、堅牢な防御モデルを開発するために利用可能なトレーニングサンプルの多様性と豊かさが制限される。
一方、既存のガードレール方式のメソッドは、セキュリティ制約を強制するために外部モジュールに依存しているが、MLLM内の固有の脆弱性に対処できない。
一方、従来の教師付き微調整(SFT)は、しばしば無害な入力を過度に排除し、一般的な性能を損なう。
これらの課題を踏まえ、我々はMLLMの安全性を高めるために、革新的な反復防衛攻撃訓練手法であるSecure Tug-of-War (SecTOW)を提案する。
SecTOWはディフェンダーと補助攻撃の2つのモジュールで構成され、どちらも強化学習(GRPO)を使用して反復的に訓練されている。
反復処理の間、攻撃者は防衛モデルにおけるセキュリティ上の脆弱性を特定し、ジェイルブレイクデータを拡張する。
拡張されたデータはディフェンダーのトレーニングに使用され、セキュリティ上の脆弱性を特定できる。
また、GRPOの報酬機構を設計し、応答ラベルの使用を簡素化し、複雑な生成ラベルへの依存を低減し、合成データの効率的な利用を可能にする。
さらに、品質監視機構は、攻撃者が生成したジェイルブレイクデータの多様性を確保するために、ディフェンダーの無害な入力の過剰な拒絶を軽減するために使用される。
安全性に特有なベンチマークと一般ベンチマークの実験結果から、SecTOWは一般的な性能を維持しながら、セキュリティを著しく改善することが示された。
関連論文リスト
- Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。