論文の概要: SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge
- arxiv url: http://arxiv.org/abs/2511.16743v1
- Date: Thu, 20 Nov 2025 19:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.791647
- Title: SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge
- Title(参考訳): SafeR-CLIP:事前学習知識を維持しながら視覚言語モデルにおけるNSFW内容の緩和
- Authors: Adeel Yousaf, Joseph Fioresi, James Beetham, Amrit Singh Bedi, Mubarak Shah,
- Abstract要約: SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
- 参考スコア(独自算出の注目度): 51.634837361795434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the safety of vision-language models like CLIP via fine-tuning often comes at a steep price, causing significant drops in their generalization performance. We find this trade-off stems from rigid alignment strategies that force unsafe concepts toward single, predefined safe targets, disrupting the model's learned semantic structure. To address this, we propose a proximity-aware approach: redirecting unsafe concepts to their semantically closest safe alternatives to minimize representational change. We introduce SaFeR-CLIP, a fine-tuning framework that applies this principle of minimal intervention. SaFeR-CLIP successfully reconciles safety and performance, recovering up to 8.0% in zero-shot accuracy over prior methods while maintaining robust safety. To support more rigorous evaluation, we also contribute NSFW-Caps, a new benchmark of 1,000 highly-aligned pairs for testing safety under distributional shift. Our work shows that respecting the geometry of pretrained representations is key to achieving safety without sacrificing performance.
- Abstract(参考訳): 微調整によるCLIPのような視覚言語モデルの安全性の向上は、しばしば急激な価格で行われ、その一般化性能が大幅に低下する。
このトレードオフは、安全でない概念を単一で事前定義された安全なターゲットに強制し、モデルの学習されたセマンティック構造を破壊してしまう、厳密なアライメント戦略に起因している。
そこで本稿では,非安全概念をセマンティックに最も近い代替案にリダイレクトすることで,表現的変化を最小限に抑える手法を提案する。
最小限の介入というこの原則を適用した微調整フレームワークであるSaFeR-CLIPを紹介する。
SaFeR-CLIPは安全性と性能の調整に成功し、安全性を維持しつつ、以前の方法よりも8.0%のゼロショット精度を回復した。
より厳密な評価を支援するため、分布シフト下での安全性をテストするために、1000組の高整合ペアの新しいベンチマークであるNSFW-Capsにも貢献する。
我々の研究は、事前訓練された表現の幾何学を尊重することが、性能を犠牲にすることなく安全を達成するための鍵であることを示している。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [30.820398160975504]
微調整された大型言語モデル(LLM)は安全性を損なう可能性があるため、LSMは有害または非倫理的なプロンプトに応答する。
本稿では,下流性能を維持しながら安全性を維持する軽量なポストファインニングフレームワークであるSafeMERGEを提案する。
以上の結果から,選択的層ワイドマージは微調整時の安全性の低下を効果的に防ぐことができることが示された。
論文 参考訳(メタデータ) (2025-03-21T15:44:09Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。