論文の概要: SafeVision: Efficient Image Guardrail with Robust Policy Adherence and Explainability
- arxiv url: http://arxiv.org/abs/2510.23960v1
- Date: Tue, 28 Oct 2025 00:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.69404
- Title: SafeVision: Efficient Image Guardrail with Robust Policy Adherence and Explainability
- Title(参考訳): SafeVision:ロバストなポリシーと説明可能性を備えた効率的なイメージガードレール
- Authors: Peiyang Xu, Minzhou Pan, Zhaorun Chen, Shuang Yang, Chaowei Xiao, Bo Li,
- Abstract要約: 我々は,適応性と透明性を高めるために人間ライクな推論を統合する新しいイメージガードレールであるSafeVisionを紹介する。
提案手法には,効率的なデータ収集・生成フレームワーク,ポリシフォロートレーニングパイプライン,カスタマイズされた損失関数が組み込まれている。
SafeVisionは、異なるベンチマークで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 49.074914896839466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid proliferation of digital media, the need for efficient and transparent safeguards against unsafe content is more critical than ever. Traditional image guardrail models, constrained by predefined categories, often misclassify content due to their pure feature-based learning without semantic reasoning. Moreover, these models struggle to adapt to emerging threats, requiring costly retraining for new threats. To address these limitations, we introduce SafeVision, a novel image guardrail that integrates human-like reasoning to enhance adaptability and transparency. Our approach incorporates an effective data collection and generation framework, a policy-following training pipeline, and a customized loss function. We also propose a diverse QA generation and training strategy to enhance learning effectiveness. SafeVision dynamically aligns with evolving safety policies at inference time, eliminating the need for retraining while ensuring precise risk assessments and explanations. Recognizing the limitations of existing unsafe image benchmarks, which either lack granularity or cover limited risks, we introduce VisionHarm, a high-quality dataset comprising two subsets: VisionHarm Third-party (VisionHarm-T) and VisionHarm Comprehensive(VisionHarm-C), spanning diverse harmful categories. Through extensive experiments, we show that SafeVision achieves state-of-the-art performance on different benchmarks. SafeVision outperforms GPT-4o by 8.6% on VisionHarm-T and by 15.5% on VisionHarm-C, while being over 16x faster. SafeVision sets a comprehensive, policy-following, and explainable image guardrail with dynamic adaptation to emerging threats.
- Abstract(参考訳): デジタルメディアの急速な普及により、安全でないコンテンツに対する効率的で透明な保護の必要性はこれまで以上に重要になっている。
定義済みのカテゴリによって制約された従来のイメージガードレールモデルは、しばしば、意味論的推論なしで純粋に特徴に基づく学習のために、コンテンツを誤分類する。
さらに、これらのモデルは、新たな脅威に対応するのに苦労し、新しい脅威に対してコストのかかる再訓練を必要とします。
これらの制限に対処するため、私たちは、適応性と透明性を高めるために、人間のような推論を統合する新しいイメージガードレールであるSafeVisionを紹介します。
提案手法には,効率的なデータ収集・生成フレームワーク,ポリシフォロートレーニングパイプライン,カスタマイズされた損失関数が組み込まれている。
また,学習効率を高めるため,多様なQA生成と学習戦略を提案する。
SafeVisionは、推論時に進化する安全ポリシーと動的に一致し、正確なリスク評価と説明を確保しながら、再トレーニングの必要性を排除します。
VisionHarmサードパーティ(VisionHarm-T)とVisionHarm包括的(VisionHarm-C)の2つのサブセットからなる高品質なデータセットであるVisionHarmを導入する。
広範な実験を通して、SafeVisionは様々なベンチマークで最先端のパフォーマンスを達成することを示す。
SafeVisionは、VisionHarm-Tで8.6%、VisionHarm-Cで15.5%、GPT-4oで16倍高速である。
SafeVisionは、新興脅威への動的適応を伴う包括的でポリシーフォロー、説明可能なイメージガードレールを設定する。
関連論文リスト
- SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。