論文の概要: Security Risk of Misalignment between Text and Image in Multi-modal Model
- arxiv url: http://arxiv.org/abs/2510.26105v1
- Date: Thu, 30 Oct 2025 03:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.647512
- Title: Security Risk of Misalignment between Text and Image in Multi-modal Model
- Title(参考訳): マルチモーダルモデルにおけるテキストと画像の相違のセキュリティリスク
- Authors: Xiaosen Wang, Zhijin Ge, Shaokang Wang,
- Abstract要約: 本稿では,任意のプロンプトと連動して入力画像を変更することで,プロンプト自体を変更することなく,生成されたコンテンツを操作するための新たな攻撃を提案する。
PReMAは、主にNSFWコンテンツを生成するために逆方向のプロンプトを生成する従来の方法と区別して、単に逆方向の画像を生成することで、モデル出力を操作する最初の攻撃である。
- 参考スコア(独自算出の注目度): 10.368397924684063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the notable advancements and versatility of multi-modal diffusion models, such as text-to-image models, their susceptibility to adversarial inputs remains underexplored. Contrary to expectations, our investigations reveal that the alignment between textual and Image modalities in existing diffusion models is inadequate. This misalignment presents significant risks, especially in the generation of inappropriate or Not-Safe-For-Work (NSFW) content. To this end, we propose a novel attack called Prompt-Restricted Multi-modal Attack (PReMA) to manipulate the generated content by modifying the input image in conjunction with any specified prompt, without altering the prompt itself. PReMA is the first attack that manipulates model outputs by solely creating adversarial images, distinguishing itself from prior methods that primarily generate adversarial prompts to produce NSFW content. Consequently, PReMA poses a novel threat to the integrity of multi-modal diffusion models, particularly in image-editing applications that operate with fixed prompts. Comprehensive evaluations conducted on image inpainting and style transfer tasks across various models confirm the potent efficacy of PReMA.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルのようなマルチモーダル拡散モデルの顕著な進歩と汎用性にもかかわらず、その逆入力に対する感受性は未解明のままである。
予測とは対照的に,既存の拡散モデルにおけるテキストと画像の整合性は不十分である。
このミスアライメントは、特に不適切または安全でない(NSFW)コンテンツの生成において重大なリスクをもたらす。
そこで本稿では,プロンプト制限型マルチモーダル攻撃(PReMA)と呼ばれる新たな攻撃手法を提案する。
PReMAは、主にNSFWコンテンツを生成するために逆方向のプロンプトを生成する従来の方法と区別して、単に逆方向の画像を生成することで、モデル出力を操作する最初の攻撃である。
その結果、PReMAは、特に一定のプロンプトで動作する画像編集アプリケーションにおいて、マルチモーダル拡散モデルの完全性に新たな脅威をもたらす。
PReMAの有効性は,様々なモデルにまたがる画像の塗り絵やスタイルの伝達タスクにおいて総合的に評価され,その有効性が確認された。
関連論文リスト
- Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - Proxy-Embedding as an Adversarial Teacher: An Embedding-Guided Bidirectional Attack for Referring Expression Segmentation Models [7.064823891326925]
Referring Expression (RES)は、自然言語記述に基づく画像の正確なオブジェクトセグメンテーションを可能にする。
その印象的な性能にもかかわらず、RESモデルの敵の例に対する堅牢性はほとんど解明されていない。
本稿では RES モデルに対する埋め込み誘導双方向攻撃 PEAT を提案する。
論文 参考訳(メタデータ) (2025-06-19T09:14:04Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。