論文の概要: ProGuard: Towards Proactive Multimodal Safeguard
- arxiv url: http://arxiv.org/abs/2512.23573v1
- Date: Mon, 29 Dec 2025 16:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.574773
- Title: ProGuard: Towards Proactive Multimodal Safeguard
- Title(参考訳): ProGuard: 積極的なマルチモーダルセーフガードを目指して
- Authors: Shaohan Yu, Lijun Li, Chenyang Si, Lu Sheng, Jing Shao,
- Abstract要約: ProGuardは視覚言語プロアクティブガードであり、アウト・オブ・ディストリビューション(OOD)の安全性リスクを特定し記述する。
まず,2次安全ラベルとリスクカテゴリの両方を付加した87Kサンプルのモダリティバランスデータセットを構築した。
次に、強化学習を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
- 参考スコア(独自算出の注目度): 48.89789547707647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of generative models has led to a continuous emergence of multimodal safety risks, exposing the limitations of existing defense methods. To address these challenges, we propose ProGuard, a vision-language proactive guard that identifies and describes out-of-distribution (OOD) safety risks without the need for model adjustments required by traditional reactive approaches. We first construct a modality-balanced dataset of 87K samples, each annotated with both binary safety labels and risk categories under a hierarchical multimodal safety taxonomy, effectively mitigating modality bias and ensuring consistent moderation across text, image, and text-image inputs. Based on this dataset, we train our vision-language base model purely through reinforcement learning (RL) to achieve efficient and concise reasoning. To approximate proactive safety scenarios in a controlled setting, we further introduce an OOD safety category inference task and augment the RL objective with a synonym-bank-based similarity reward that encourages the model to generate concise descriptions for unseen unsafe categories. Experimental results show that ProGuard achieves performance comparable to closed-source large models on binary safety classification, substantially outperforms existing open-source guard models on unsafe content categorization. Most notably, ProGuard delivers a strong proactive moderation ability, improving OOD risk detection by 52.6% and OOD risk description by 64.8%.
- Abstract(参考訳): 生成モデルの急速な進化は、既存の防御手法の限界を露呈し、マルチモーダル安全リスクの継続的な出現につながった。
これらの課題に対処するために、従来のリアクティブアプローチで必要とされるモデル調整を必要とせずに、OOD(Out-of-distriion)の安全性リスクを特定し、記述する視覚言語プロアクティブガードであるProGuardを提案する。
まず,2次安全ラベルとリスクカテゴリの両方に注釈を付した87Kサンプルのモダリティバランスデータセットを構築し,モダリティバイアスを効果的に緩和し,テキスト,画像,テキストイメージの入力を一貫したモダリティを確実にする。
このデータセットに基づいて、強化学習(RL)を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
制御された環境での積極的安全シナリオを近似するために、OOD安全カテゴリ推論タスクを導入し、同義銀行に基づく類似性報酬によりRL目標を増大させ、不安全カテゴリの簡潔な記述をモデルに促す。
実験の結果、ProGuardはバイナリセーフティ分類におけるクローズドソースの大規模モデルに匹敵する性能を達成し、安全でないコンテンツの分類における既存のガードモデルよりも大幅に優れていた。
特に、ProGuardは強力なプロアクティブなモデレーション能力を提供し、OODのリスク検出を52.6%改善し、OODのリスク記述を64.8%改善した。
関連論文リスト
- DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents [12.054307827384415]
大きな言語モデル(LLM)はますます顕著になり、重要なドメインへの信頼性の高いデプロイメントを厳しく制限しています。
本稿では,LLMを入力レベルと出力レベルの両方で保護する新しい安全応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T03:04:35Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback [34.01716144973483]
汎用AIアシスタント構築にはMLLM(Multimodal large language model)が不可欠である。
MLLMの安全アライメントをどうやって確保すれば、望ましくない行動を防ぐことができるのか?
本研究では,安全なRLHF-Vを初めて探求する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。