論文の概要: Unveiling the Attribute Misbinding Threat in Identity-Preserving Models
- arxiv url: http://arxiv.org/abs/2512.15818v1
- Date: Wed, 17 Dec 2025 14:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.744531
- Title: Unveiling the Attribute Misbinding Threat in Identity-Preserving Models
- Title(参考訳): アイデンティティ保存モデルにおける属性ミスバインディングの脅威の解消
- Authors: Junming Fu, Jishen Zeng, Yi Jiang, Peiyu Zhuang, Baoying Chen, Siyu Lu, Jianquan Yang,
- Abstract要約: 本稿では,NSFW(Not-Safe-For-Work)コンテンツの生成を促すことによって,ID保存モデルに対する脅威を生じさせる新しい手法を提案する。
この攻撃の中核となるアイデアは、テキストフィルターの保護を回避するために、良心的なテキストプロンプトを作ることである。
本稿では,現在最先端のID保存モデルにおけるコンテンツ生成リスクを検証したtextbfMis binding Prompt 評価セットを提案する。
- 参考スコア(独自算出の注目度): 14.683859565833297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identity-preserving models have led to notable progress in generating personalized content. Unfortunately, such models also exacerbate risks when misused, for instance, by generating threatening content targeting specific individuals. This paper introduces the \textbf{Attribute Misbinding Attack}, a novel method that poses a threat to identity-preserving models by inducing them to produce Not-Safe-For-Work (NSFW) content. The attack's core idea involves crafting benign-looking textual prompts to circumvent text-filter safeguards and leverage a key model vulnerability: flawed attribute binding that stems from its internal attention bias. This results in misattributing harmful descriptions to a target identity and generating NSFW outputs. To facilitate the study of this attack, we present the \textbf{Misbinding Prompt} evaluation set, which examines the content generation risks of current state-of-the-art identity-preserving models across four risk dimensions: pornography, violence, discrimination, and illegality. Additionally, we introduce the \textbf{Attribute Binding Safety Score (ABSS)}, a metric for concurrently assessing both content fidelity and safety compliance. Experimental results show that our Misbinding Prompt evaluation set achieves a \textbf{5.28}\% higher success rate in bypassing five leading text filters (including GPT-4o) compared to existing main-stream evaluation sets, while also demonstrating the highest proportion of NSFW content generation. The proposed ABSS metric enables a more comprehensive evaluation of identity-preserving models by concurrently assessing both content fidelity and safety compliance.
- Abstract(参考訳): アイデンティティを保存するモデルは、パーソナライズされたコンテンツの生成において顕著な進歩をもたらした。
残念なことに、このようなモデルは、例えば特定の個人をターゲットにした脅威のあるコンテンツを生成することで、誤用された場合のリスクを悪化させる。
本稿では,NSFW(Not-Safe-For-Work)コンテンツの生成を誘導することによって,ID保存モデルに脅威をもたらす新しい手法である,textbf{Attribute Misbinding Attack}を紹介する。
この攻撃の中核となる考え方は、テキストフィルタリングの保護を回避し、重要なモデルの脆弱性を利用するために、良心的なテキストプロンプトを作成することである。
これにより、有害な記述をターゲットのアイデンティティに誤解し、NSFW出力を生成する。
本研究は,4つのリスク次元(ポルノ,暴力,差別,違法性)にまたがる,現在最先端のアイデンティティ保存モデルにおけるコンテンツ生成リスクを検証した,textbf{Mis binding Prompt}の評価セットを提案する。
また,コンテンツ忠実度と安全性コンプライアンスの両面を同時に評価する指標として,ABSS(textbf{Attribute Binding Safety Score)を導入している。
実験結果から,提案したミスバインディング・プロンプト評価セットは,従来のメインストリーム評価セットに比べて5つの先行するテキストフィルタ(GPT-4oを含む)をバイパスし,かつ,NSFWコンテンツ生成率が最も高いことを示唆した。
提案手法は,コンテンツ忠実度と安全性コンプライアンスの両面を同時に評価することにより,アイデンティティ保存モデルのより包括的な評価を可能にする。
関連論文リスト
- Value-Aligned Prompt Moderation via Zero-Shot Agentic Rewriting for Safe Image Generation [11.663809872664103]
現在の防衛は、生産物を生産品質を犠牲にしたり、高いコストを発生させることなく、人的価値と整合させるのに苦労している。
我々は、より安全でより有用なテキスト・ツー・イメージ・ジェネレーションのためのゼロショットエージェント・フレームワークであるVALORを紹介した。
VALORは、階層化されたプロンプト分析とヒューマンアラインな値推論を統合している。
論文 参考訳(メタデータ) (2025-11-12T09:52:47Z) - Training-Free Safe Text Embedding Guidance for Text-to-Image Diffusion Models [30.63803894651171]
本研究では,拡散モデルの安全性を向上させるためのトレーニング不要アプローチであるセーフテキスト埋め込みガイダンス(STG)を提案する。
STGは、期待された最終識別画像に基づいて評価された安全性関数に基づいてテキスト埋め込みを調整する。
ヌード、暴力、アーティストスタイルの除去など、さまざまな安全シナリオの実験は、STGがトレーニングベースとトレーニングフリーベースラインの両方を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-28T02:37:20Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings [51.65890794988425]
本研究は,DeepSeekモデルの最初の包括的安全性評価である。
評価対象は,DeepSeekの最新の大規模言語モデル,マルチモーダル大規模言語モデル,テキスト・ツー・イメージモデルである。
論文 参考訳(メタデータ) (2025-03-19T10:44:37Z) - SC-Pro: Training-Free Framework for Defending Unsafe Image Synthesis Attack [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
NSFW画像を生成する敵攻撃に対して容易に防御できる訓練不要のフレームワークであるSC-Proを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [16.188657772178747]
本研究では,不適切な概念を迅速に埋め込むことで,テキスト・ツー・イメージモデルの安全性を高めるEmbeded Sanitizer (ES)を提案する。
ESは、その潜在的な有害性を示すプロンプトにおいて各トークンにスコアを割り当てる最初の解釈可能な安全な生成フレームワークである。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。