論文の概要: Uncovering Vision Modality Threats in Image-to-Image Tasks
- arxiv url: http://arxiv.org/abs/2412.05538v1
- Date: Sat, 07 Dec 2024 04:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:53:30.547220
- Title: Uncovering Vision Modality Threats in Image-to-Image Tasks
- Title(参考訳): イメージ・ツー・イメージタスクにおける視覚的モダリティの脅威を明らかにする
- Authors: Hao Cheng, Erjia Xiao, Jiayan Yang, Jiahang Cao, Qiang Zhang, Jize Zhang, Kaidi Xu, Jindong Gu, Renjing Xu,
- Abstract要約: 本稿では,様々な画像生成モデルが視覚的モダリティの脅威に直面することを明らかにするために,タイポグラフィー攻撃という手法を用いる。
また,視覚的モダリティの脅威に直面した既存手法の防御性能を評価し,その非効率性を明らかにする。
- 参考スコア(独自算出の注目度): 26.681274483708165
- License:
- Abstract: Current image generation models can effortlessly produce high-quality, highly realistic images, but this also increases the risk of misuse. In various Text-to-Image or Image-to-Image tasks, attackers can generate a series of images containing inappropriate content by simply editing the language modality input. Currently, to prevent this security threat, the various guard or defense methods that are proposed also focus on defending the language modality. However, in practical applications, threats in the visual modality, particularly in tasks involving the editing of real-world images, pose greater security risks as they can easily infringe upon the rights of the image owner. Therefore, this paper uses a method named typographic attack to reveal that various image generation models also commonly face threats in the vision modality. Furthermore, we also evaluate the defense performance of various existing methods when facing threats in the vision modality and uncover their ineffectiveness. Finally, we propose the Vision Modal Threats in Image Generation Models (VMT-IGMs) dataset, which would serve as a baseline for evaluating the vision modality vulnerability of various image generation models.
- Abstract(参考訳): 現在の画像生成モデルは、高品質で非常にリアルな画像を生成することができるが、これは誤用リスクを増大させる。
様々なテキスト・トゥ・イメージタスクやイメージ・トゥ・イメージタスクでは、アタッカーは言語のモダリティ入力を編集するだけで不適切なコンテンツを含む一連の画像を生成することができる。
現在、このセキュリティの脅威を防ぐため、提案されている様々なガードや防御手法は、言語モダリティの防衛にも重点を置いている。
しかし、現実的な応用においては、視覚的モダリティの脅威、特に現実世界の画像の編集に関わるタスクは、画像所有者の権利を侵害しやすく、セキュリティ上のリスクを増大させる。
そこで本研究では,様々な画像生成モデルが視覚的モダリティの脅威に直面していることを明らかにするために,タイポグラフィー攻撃という手法を用いている。
さらに,視覚的モダリティの脅威に直面した既存手法の防御性能を評価し,その非効率性を明らかにする。
最後に,画像生成モデル(VMT-IGMs)におけるビジョン・モーダル・脅威(Vision Modal Threats in Image Generation Models)データセットを提案する。
関連論文リスト
- TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - ID-Guard: A Universal Framework for Combating Facial Manipulation via Breaking Identification [60.73617868629575]
深層学習に基づく顔操作の誤用は、公民権に対する潜在的な脅威となる。
この不正行為を防ぐため、プロアクティブな防御技術が提案され、操作プロセスを妨害した。
我々は,ID-Guardと呼ばれる,顔操作と戦うための新しい普遍的枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-20T09:30:08Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images [29.913089752247362]
画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。
まず、安全または安全でないと注釈付けされた10Kの現実世界とAI生成画像の大規模なデータセットをキュレートする。
次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2024-05-06T13:57:03Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Membership Inference Attacks Against Text-to-image Generation Models [23.39695974954703]
本稿では,メンバシップ推論のレンズを用いたテキスト・画像生成モデルの最初のプライバシ解析を行う。
本稿では,メンバーシップ情報に関する3つの重要な直観と,それに応じて4つの攻撃手法を設計する。
提案した攻撃はいずれも大きな性能を達成でき、場合によっては精度が1に近い場合もあり、既存のメンバーシップ推論攻撃よりもはるかに深刻なリスクとなる。
論文 参考訳(メタデータ) (2022-10-03T14:31:39Z) - Detecting and Segmenting Adversarial Graphics Patterns from Images [0.0]
人工的なグラフィックパターン分割問題のような攻撃に対する防御を定式化する。
本稿では,いくつかのセグメンテーションアルゴリズムの有効性を評価し,その性能の観察に基づいて,この問題に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-20T21:54:39Z) - Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep
Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。
一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。
画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文 参考訳(メタデータ) (2021-04-30T14:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。