論文の概要: FameBias: Embedding Manipulation Bias Attack in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2412.18302v1
- Date: Tue, 24 Dec 2024 09:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:32.685539
- Title: FameBias: Embedding Manipulation Bias Attack in Text-to-Image Models
- Title(参考訳): FameBias: テキストと画像のモデルにマニピュレーションバイアス攻撃を埋め込む
- Authors: Jaechul Roh, Andrew Yuan, Jinsong Mao,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは急速に進歩し、記述と密接に一致した高品質な画像を生成することができる。
最近の研究によると、攻撃者は単純な微調整によってこれらのモデルにバイアスを埋め込むことができる。
本稿では、入力プロンプトの埋め込みを操作し、特定の公開人物を特徴とする画像を生成するT2Iバイアス攻撃であるFairBiasを紹介する。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License:
- Abstract: Text-to-Image (T2I) diffusion models have rapidly advanced, enabling the generation of high-quality images that align closely with textual descriptions. However, this progress has also raised concerns about their misuse for propaganda and other malicious activities. Recent studies reveal that attackers can embed biases into these models through simple fine-tuning, causing them to generate targeted imagery when triggered by specific phrases. This underscores the potential for T2I models to act as tools for disseminating propaganda, producing images aligned with an attacker's objective for end-users. Building on this concept, we introduce FameBias, a T2I biasing attack that manipulates the embeddings of input prompts to generate images featuring specific public figures. Unlike prior methods, Famebias operates solely on the input embedding vectors without requiring additional model training. We evaluate FameBias comprehensively using Stable Diffusion V2, generating a large corpus of images based on various trigger nouns and target public figures. Our experiments demonstrate that FameBias achieves a high attack success rate while preserving the semantic context of the original prompts across multiple trigger-target pairs.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは急速に進歩し、テキスト記述と密接に一致した高品質な画像を生成することができる。
しかし、この進展はプロパガンダやその他の悪意ある活動に対する悪用を懸念する声も上がっている。
最近の研究によると、攻撃者は単純な微調整によってこれらのモデルにバイアスを埋め込むことができ、特定のフレーズによって引き起こされたターゲット画像を生成する。
このことは、T2Iモデルがプロパガンダを広めるツールとして機能し、エンドユーザーに対する攻撃者の目的に沿った画像を生成する可能性を示している。
この概念に基づいて、入力プロンプトの埋め込みを操作するT2Iバイアス攻撃であるFairBiasを導入し、特定の公開人物を特徴とする画像を生成する。
以前の方法とは異なり、フェムビアスは追加のモデルトレーニングを必要とせず、入力埋め込みベクトルのみで動作する。
安定拡散V2を用いてFameBiasを包括的に評価し,様々なトリガー名詞と対象人物に基づいて大量の画像を生成する。
実験により,FameBiasは,複数のトリガーターゲット対にまたがるプロンプトの意味的文脈を保ちながら,高い攻撃成功率を達成することが示された。
関連論文リスト
- Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models [29.083402085790016]
本稿では,事前学習した拡散モデルのサンプル軌跡を,参照集合外に落下する画像上に着陸させる手法を提案する。
生成軌道全体にわたって拡散SDEに反発項を追加することでこれを実現できる。
一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-08T13:26:32Z) - GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models [75.04426753720553]
開集合におけるバイアスを特定し,定量化し,説明するための枠組みを提案する。
このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。
このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。
論文 参考訳(メタデータ) (2024-08-29T16:51:07Z) - HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models [28.28898114141277]
テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Backdooring Bias into Text-to-Image Models [16.495996266157274]
敵がバックドア攻撃によって任意のバイアスを加えることで、良質なユーザーが画像を生成することさえも影響することを示した。
私たちの攻撃は、テキストプロンプトで与えられた意味情報を保存しているため、ステルス状態のままです。
我々は、現在の最先端の生成モデルが、この攻撃を安価かつあらゆる敵に対して実現可能であることを示す。
論文 参考訳(メタデータ) (2024-06-21T14:53:19Z) - Manipulating and Mitigating Generative Model Biases without Retraining [49.60774626839712]
モデル再学習を伴わないリッチ言語埋め込み空間を利用して,T2Iモデルバイアスの動的かつ効率的な操作を提案する。
基礎ベクトル代数を利用することで、T2Iモデルの出力をシフトさせる言語モデルの埋め込みを便利に制御できることを示す。
副産物として、この制御は正確なプロンプト工学の一形態として機能し、通常のテキストプロンプトを使って一般的には理解できない画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T07:33:30Z) - Regeneration Based Training-free Attribution of Fake Images Generated by
Text-to-Image Generative Models [39.33821502730661]
そこで本研究では,テキスト・ツー・イメージ・モデルによって生成された偽画像をソース・モデルに属性付けするためのトレーニング不要な手法を提案する。
テスト画像と候補画像の類似性を計算し、ランキングすることにより、画像のソースを決定することができる。
論文 参考訳(メタデータ) (2024-03-03T11:55:49Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Text-image guided Diffusion Model for generating Deepfake celebrity
interactions [50.37578424163951]
拡散モデルは近年、非常にリアルなビジュアルコンテンツ生成を実証している。
本稿では,その点において新しい手法を考案し,検討する。
提案手法により, 現実感を脅かすことなく, 偽の視覚コンテンツを作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-26T08:24:37Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。