論文の概要: Towards Policy-Adaptive Image Guardrail: Benchmark and Method
- arxiv url: http://arxiv.org/abs/2603.01228v1
- Date: Sun, 01 Mar 2026 18:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.579087
- Title: Towards Policy-Adaptive Image Guardrail: Benchmark and Method
- Title(参考訳): 政策適応型イメージガードレールのベンチマークと方法
- Authors: Caiyong Piao, Zhiyuan Yan, Haoming Xu, Yunzhen Zhao, Kaiqing Lin, Feiyang Xu, Shuigeng Zhou,
- Abstract要約: ヴィジュアル言語モデル(VLM)は動的安全ガードレールのより適応的で一般化可能な基盤を提供する。
既存のVLMベースの保護方法は、通常、固定された安全ポリシーのみの下で訓練され、評価される。
本稿では,ロバストなアンセーフイメージガードレールに対する報酬を検証可能な強化学習ベース手法であるSafeGuard-VLを紹介する。
- 参考スコア(独自算出の注目度): 21.041111216560545
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Accurate rejection of sensitive or harmful visual content, i.e., harmful image guardrail, is critical in many application scenarios. This task must continuously adapt to the evolving safety policies and content across various domains and over time. However, traditional classifiers, confined to fixed categories, require frequent retraining when new policies are introduced. Vision-language models (VLMs) offer a more adaptable and generalizable foundation for dynamic safety guardrails. Despite this potential, existing VLM-based safeguarding methods are typically trained and evaluated under only a fixed safety policy. We find that these models are heavily overfitted to the seen policy, fail to generalize to unseen policies, and even lose the basic instruction-following ability and general knowledge. To address this issue, in this paper we make two key contributions. First, we benchmark the cross-policy generalization performance of existing VLMs with SafeEditBench, a new evaluation suite. SafeEditBench leverages image-editing models to convert unsafe images into safe counterparts, producing policy-aligned datasets where each safe-unsafe image pair remains visually similar except for localized regions violating specific safety rules. Human annotators then provide accurate safe/unsafe labels under five distinct policies, enabling fine-grained assessment of policy-aware generalization. Second, we introduce SafeGuard-VL, a reinforcement learning-based method with verifiable rewards (RLVR) for robust unsafe-image guardrails. Instead of relying solely on supervised fine-tuning (SFT) under fixed policies, SafeGuard-VL explicitly optimizes the model with policy-grounded rewards, promoting verifiable adaptation across evolving policies. Extensive experiments verify the effectiveness of our method for unsafe image guardrails across various policies.
- Abstract(参考訳): 多くのアプリケーションシナリオにおいて、重要または有害な視覚的内容、すなわち有害なイメージガードレールの正確な拒絶は重要である。
このタスクは、さまざまなドメインと時間の経過とともに進化する安全ポリシーとコンテンツに継続的に適応する必要があります。
しかし、固定カテゴリーに限定された伝統的な分類器は、新しいポリシーを導入する際に頻繁に再訓練を必要とする。
ヴィジュアル言語モデル(VLM)は動的安全ガードレールのより適応的で一般化可能な基盤を提供する。
この可能性にもかかわらず、既存のVLMベースの安全保護方法は、通常、固定された安全ポリシーの下で訓練され、評価される。
これらのモデルは、見るべきポリシーに非常に適合し、目に見えないポリシーに一般化できず、基礎的な指示追従能力と一般的な知識を失うことさえある。
この問題に対処するため、本稿では2つの重要なコントリビューションを行います。
まず,新たな評価スイートであるSafeEditBenchを用いて,既存のVLMのクロス政治一般化性能をベンチマークする。
SafeEditBenchは、イメージ編集モデルを活用して、安全でない画像を安全なものに変換する。
人間のアノテータは、5つの異なるポリシーの下で正確な安全/安全ラベルを提供し、ポリシーを意識した一般化のきめ細かい評価を可能にする。
第二にSafeGuard-VLは、堅牢なアンセーフイメージガードレールに対する検証可能な報酬(RLVR)を備えた強化学習ベースの手法である。
SafeGuard-VLは、固定ポリシーの下で監督された微調整(SFT)のみに頼るのではなく、ポリシーに基づく報酬でモデルを明示的に最適化し、進化するポリシー全体にわたって検証可能な適応を促進する。
広範にわたる実験により, 安全でない画像ガードレールに対する提案手法の有効性が検証された。
関連論文リスト
- Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought [5.251527748612469]
大きな言語モデル(LLM)は、静的で一大の安全ポリシーのため、基本的な安全性のトレードオフに直面します。
我々は、明示的でリスクを意識した推論による動的安全制御のためのフレームワーク、textbfPACT(Prompt-Thought Action via Chain-of-Thought)を提案する。
論文 参考訳(メタデータ) (2026-02-06T12:20:01Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - SafeVision: Efficient Image Guardrail with Robust Policy Adherence and Explainability [49.074914896839466]
我々は,適応性と透明性を高めるために人間ライクな推論を統合する新しいイメージガードレールであるSafeVisionを紹介する。
提案手法には,効率的なデータ収集・生成フレームワーク,ポリシフォロートレーニングパイプライン,カスタマイズされた損失関数が組み込まれている。
SafeVisionは、異なるベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T00:35:59Z) - SafetyPairs: Isolating Safety Critical Image Features with Counterfactual Image Generation [5.313750874857107]
安全ポリシーに関連する機能にのみ異なる、対物的な画像を生成するためのフレームワークであるSafetyPairsを紹介する。
SafetyPairsを使って、評価データの強力なソースとなる新しい安全ベンチマークを構築します。
我々は,9つの安全カテゴリーの分類学にまたがる3,020以上のSafetyPair画像を含むベンチマークを公表した。
論文 参考訳(メタデータ) (2025-10-24T03:19:48Z) - Bridging the Gap in Vision Language Models in Identifying Unsafe Concepts Across Modalities [23.165174248333212]
視覚言語モデル(VLM)は、安全でない画像や不適切な画像を特定するためにますます応用されている。
テキストや画像など、さまざまなモダリティで提示されたさまざまな安全でない概念を認識できるかどうかはまだ不明である。
VLMの認識(概念認識)とアライメント(倫理的推論)能力の体系的評価を行う。
本稿では,画像から安全でない概念を識別する能力を強化するために,PPOを用いた簡易強化学習(RL)アプローチを提案する。
論文 参考訳(メタデータ) (2025-07-15T10:04:27Z) - GuardSet-X: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset [18.306944278068638]
ここでは、最初の大規模マルチドメイン安全ポリシー付きガードレールデータセットであるGuardSet-Xを紹介する。
GuardSet-Xは金融、法律、CodeGenといった8つのセーフティクリティカルドメインにまたがる広範なドメインカバレッジを提供する。
先進的なガードレールモデル19をベンチマークし、一連の結果を明らかにした。
論文 参考訳(メタデータ) (2025-06-18T01:35:33Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold Policies [30.57323631122579]
我々は、経済、医療、デジタル広告の応用に関する、ユビキタスなポリシーであるしきい値ポリシーに焦点を当てている。
既存の方法は、潜在的に非力な安全チェックに依存し、安全な改善を見つける機会を制限する。
本手法は, 逆条件下では, 既定誤差レベルに対して, 基準値よりも悪いポリシーを採用する確率を制御できることが示される。
論文 参考訳(メタデータ) (2024-08-21T21:38:03Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。