論文の概要: Hyperbolic Safety-Aware Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.12127v1
- Date: Sat, 15 Mar 2025 13:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:52.721490
- Title: Hyperbolic Safety-Aware Vision-Language Models
- Title(参考訳): 双曲的安全性を考慮した視覚言語モデル
- Authors: Tobia Poppi, Tejaswi Kasarla, Pascal Mettes, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: 双曲空間の本質的階層的特性を活用することによって、未学習から認知パラダイムへ移行する新しいアプローチを導入する。
我々のHySACであるHyperbolic Safety-Aware CLIPは、安全な画像テキストペアと安全でない画像テキストペア間の階層的および非対称的関係をモデル化するために、entailment loss関数を使用します。
我々のアプローチは、安全性の認識を向上するだけでなく、視覚言語モデルにおけるコンテンツモデレーションのためのより適応的で解釈可能なフレームワークも確立します。
- 参考スコア(独自算出の注目度): 44.06996781749013
- License:
- Abstract: Addressing the retrieval of unsafe content from vision-language models such as CLIP is an important step towards real-world integration. Current efforts have relied on unlearning techniques that try to erase the model's knowledge of unsafe concepts. While effective in reducing unwanted outputs, unlearning limits the model's capacity to discern between safe and unsafe content. In this work, we introduce a novel approach that shifts from unlearning to an awareness paradigm by leveraging the inherent hierarchical properties of the hyperbolic space. We propose to encode safe and unsafe content as an entailment hierarchy, where both are placed in different regions of hyperbolic space. Our HySAC, Hyperbolic Safety-Aware CLIP, employs entailment loss functions to model the hierarchical and asymmetrical relations between safe and unsafe image-text pairs. This modelling, ineffective in standard vision-language models due to their reliance on Euclidean embeddings, endows the model with awareness of unsafe content, enabling it to serve as both a multimodal unsafe classifier and a flexible content retriever, with the option to dynamically redirect unsafe queries toward safer alternatives or retain the original output. Extensive experiments show that our approach not only enhances safety recognition but also establishes a more adaptable and interpretable framework for content moderation in vision-language models. Our source code is available at https://github.com/aimagelab/HySAC.
- Abstract(参考訳): CLIPのようなビジョン言語モデルから安全でないコンテンツの検索に対処することは、現実世界の統合に向けた重要なステップである。
現在の取り組みは、モデルの安全でない概念に関する知識を消そうとする未学習のテクニックに依存している。
不要なアウトプットを減らすのに効果的であるが、アンラーニングはモデルが安全なコンテンツと安全でないコンテンツを区別する能力を制限している。
本研究では,双曲空間の本質的階層的特性を活用することによって,未学習から認知パラダイムへ移行する新しいアプローチを提案する。
本稿では,双曲空間の異なる領域に配置されるエンテーメント階層として,安全かつ安全でないコンテンツをエンコードすることを提案する。
我々のHySACであるHyperbolic Safety-Aware CLIPは、安全な画像テキストペアと安全でない画像テキストペア間の階層的および非対称的関係をモデル化するために、entailment loss関数を使用します。
このモデリングは、ユークリッドの埋め込みに依存しているため、標準的な視覚言語モデルでは有効ではなく、安全でないコンテンツの認識をモデルに与え、マルチモーダルなアンセーフ分類器とフレキシブルなコンテンツ検索器の両方として機能し、安全でないクエリを安全な代替品に向けて動的にリダイレクトしたり、元の出力を維持できる。
広汎な実験により、我々のアプローチは安全性の認識を向上するだけでなく、視覚言語モデルにおけるコンテンツモデレーションのためのより適応的で解釈可能なフレームワークを確立している。
ソースコードはhttps://github.com/aimagelab/HySAC.comで公開されています。
関連論文リスト
- SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
テキスト・ツー・イメージ(T2I)モデルは広く普及しているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
現在の安全対策はテキストベースのフィルタリングや概念除去戦略に限られており、モデルの生成能力からわずかに概念を除去することができる。
直接選好最適化(DPO)によるT2Iモデルの安全アライメント手法であるSafetyDPOを導入する。
我々は、ローランク適応(LoRA)行列の形で、特定の安全関連から生成プロセスを導くことができる安全専門家を訓練する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations [19.132597762214722]
現在のアライメント手法は、動的なユーザ意図と複雑な目的に苦しむ。
異なるシナリオにおける安全性を向上させるトレーニングフリーフレームワークであるSafety Arithmeticを提案する。
実験の結果,安全算術は安全対策を大幅に改善し,過度な安全性を低減し,モデルの有用性を維持できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T17:48:13Z) - Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models [42.19184265811366]
本研究では,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。
安全な文と安全でない文の変換を訓練した大規模言語モデルから得られた合成データに対して,CLIPモデルを微調整することで,これを実現できることを示す。
論文 参考訳(メタデータ) (2023-11-27T19:02:17Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。