論文の概要: Relationship-Aware Safety Unlearning for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2603.14185v1
- Date: Sun, 15 Mar 2026 02:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.655625
- Title: Relationship-Aware Safety Unlearning for Multimodal LLMs
- Title(参考訳): マルチモーダルLLMにおけるリレーション・アウェア・セーフティ・アンラーニング
- Authors: Vishnu Narayanan Anilkumar, Abhijith Sreesylesh Babu, Trieu Hai Vo, Mohankrishna Kolla, Alexander Cuneo,
- Abstract要約: マルチモーダルモデルは、特定のアクションや関係によってリンクされた場合に本質的に安全でない安全障害を示すことができる。
我々は、安全でないオブジェクト(O-ROtext)を明示的に表現するフレームワーク、関係認識型安全学習を提案する。
パラフレーズによるCLIPに基づく実験と評価,文脈的ロバスト性,アウト・オブ・ディストリビューション・イメージ・アタックを含む。
- 参考スコア(独自算出の注目度): 36.94429692322632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative multimodal models can exhibit safety failures that are inherently relational: two benign concepts can become unsafe when linked by a specific action or relation (e.g., child-drinking-wine). Existing unlearning and concept-erasure approaches often target isolated concepts or image-text pairs, which can cause collateral damage to benign uses of the same objects and relations. We propose relationship-aware safety unlearning: a framework that explicitly represents unsafe object-relation-object (O-R-O) tuples and applies targeted parameter-efficient edits (LoRA) to suppress unsafe tuples while preserving object marginals and safe neighboring relations. We include CLIP-based experiments and robustness evaluation under paraphrase, contextual, and out-of-distribution image attacks.
- Abstract(参考訳): 生成的マルチモーダルモデルは、本質的にリレーショナルな安全性上の障害を示すことができる。
既存の未学習と概念評価のアプローチは、しばしば孤立した概念や画像とテキストのペアを標的としており、同じオブジェクトとリレーションシップの良心的な使用に副次的なダメージを与える可能性がある。
我々は、安全でないオブジェクト-リレーショナルオブジェクト(O-R-O)タプルを明示的に表現し、ターゲットパラメータ-効率な編集(LoRA)を適用して、安全でないタプルを抑えながら、対象の限界と近隣の安全な関係を保ちながら抑制するフレームワークであるリレーション・アウェア・セーフティ・アンラーニングを提案する。
パラフレーズ,文脈,アウト・オブ・ディストリビューション画像攻撃によるCLIPに基づく実験とロバストネス評価を含む。
関連論文リスト
- Consistency-Preserving Concept Erasure via Unsafe-Safe Pairing and Directional Fisher-weighted Adaptation [17.59828667571619]
既存の概念消去アプローチは、対応する安全な代替手段へのガイダンスを提供することなく、安全でない概念を取り除くことに重点を置いている。
PAIRed Erasing(PAIRed Erasing)という新しいフレームワークを提案し、単純な削除から一貫性を保つセマンティックアライメントへと概念の消去を再構築する。
提案手法は, 構造的整合性, セマンティック・コヒーレンス, 生成品質を保ちながら, 効率的な概念消去を実現し, 最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-02-05T06:05:24Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Hyperbolic Safety-Aware Vision-Language Models [44.06996781749013]
双曲空間の本質的階層的特性を活用することによって、未学習から認知パラダイムへ移行する新しいアプローチを導入する。
我々のHySACであるHyperbolic Safety-Aware CLIPは、安全な画像テキストペアと安全でない画像テキストペア間の階層的および非対称的関係をモデル化するために、entailment loss関数を使用します。
我々のアプローチは、安全性の認識を向上するだけでなく、視覚言語モデルにおけるコンテンツモデレーションのためのより適応的で解釈可能なフレームワークも確立します。
論文 参考訳(メタデータ) (2025-03-15T13:18:04Z) - AlignGuard: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
Text-to-image (T2I) モデルは広く使われているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
本稿では,T2Iモデルの安全アライメント手法であるAlignGuardを紹介する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。