論文の概要: Implicit Bias Injection Attacks against Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.01819v1
- Date: Wed, 02 Apr 2025 15:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:21.973144
- Title: Implicit Bias Injection Attacks against Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルに対するインシシトバイアス注入攻撃
- Authors: Huayang Huang, Xiangye Jin, Jiaxu Miao, Yu Wu,
- Abstract要約: 偏りのあるT2Iモデルは特定の傾向のあるコンテンツを生成し、人々の知覚に影響を与える可能性がある。
本稿では,視覚的特徴に欠けるが,多様な方法で現れる新しい形態の暗黙バイアスを紹介する。
本稿では,T2I拡散モデルに対する暗黙バイアス注入攻撃フレームワーク(IBI-Attacks)を提案する。
- 参考スコア(独自算出の注目度): 17.131167390657243
- License:
- Abstract: The proliferation of text-to-image diffusion models (T2I DMs) has led to an increased presence of AI-generated images in daily life. However, biased T2I models can generate content with specific tendencies, potentially influencing people's perceptions. Intentional exploitation of these biases risks conveying misleading information to the public. Current research on bias primarily addresses explicit biases with recognizable visual patterns, such as skin color and gender. This paper introduces a novel form of implicit bias that lacks explicit visual features but can manifest in diverse ways across various semantic contexts. This subtle and versatile nature makes this bias challenging to detect, easy to propagate, and adaptable to a wide range of scenarios. We further propose an implicit bias injection attack framework (IBI-Attacks) against T2I diffusion models by precomputing a general bias direction in the prompt embedding space and adaptively adjusting it based on different inputs. Our attack module can be seamlessly integrated into pre-trained diffusion models in a plug-and-play manner without direct manipulation of user input or model retraining. Extensive experiments validate the effectiveness of our scheme in introducing bias through subtle and diverse modifications while preserving the original semantics. The strong concealment and transferability of our attack across various scenarios further underscore the significance of our approach. Code is available at https://github.com/Hannah1102/IBI-attacks.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデル(T2I DMs)の拡散により、日常生活におけるAI生成画像の存在感が高まっている。
しかし、偏りのあるT2Iモデルは特定の傾向のあるコンテンツを生成し、人々の知覚に影響を与える可能性がある。
これらのバイアスの意図的な利用は、誤解を招く情報を公衆に伝えるリスクを負う。
偏見に関する現在の研究は、主に、肌の色や性別などの認識可能な視覚パターンによる明示的な偏見に対処している。
本稿では,視覚的特徴に欠ける新しい形態の暗黙バイアスを紹介する。
この微妙で多用途な性質は、このバイアスを検知しやすく、伝播しやすく、幅広いシナリオに適応させることを困難にしている。
さらに,T2I拡散モデルに対する暗黙バイアス注入攻撃フレームワーク(IBI-Attacks)を提案する。
我々の攻撃モジュールは、ユーザ入力やモデル再訓練を直接操作することなく、プラグイン・アンド・プレイ方式で事前学習した拡散モデルにシームレスに統合することができる。
厳密な実験は、元の意味を保ちながら微妙で多彩な修正を通じてバイアスを導入する方法の有効性を検証した。
様々なシナリオにおける攻撃の強い隠蔽と伝達性は、我々のアプローチの重要性をさらに浮き彫りにしている。
コードはhttps://github.com/Hannah1102/IBI- attacksで入手できる。
関連論文リスト
- InvDiff: Invariant Guidance for Bias Mitigation in Diffusion Models [28.51460282167433]
拡散モデルは、非常にデータ駆動であり、現実世界のデータに存在する不均衡とバイアスを継承する傾向がある。
拡散誘導のための不変意味情報学習を目的としたフレームワークInvDiffを提案する。
InvDiffは、画像生成の品質を維持しながら、バイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-12-11T15:47:11Z) - CosFairNet:A Parameter-Space based Approach for Bias Free Learning [1.9116784879310025]
バイアス付きデータに基づいてトレーニングされたディープニューラルネットワークは、意図しない推論ルールを不注意に学習することが多い。
本稿では,モデルのパラメータ空間内で直接バイアスに対処する新しい手法を提案する。
各種合成および実世界のデータセットにおいて,分類精度の向上と偏りの低減効果を示す。
論文 参考訳(メタデータ) (2024-10-19T13:06:40Z) - OpenBias: Open-set Bias Detection in Text-to-Image Generative Models [108.2219657433884]
OpenBiasを提示するテキストから画像生成モデルにおけるオープンセットバイアス検出の課題に対処する。
OpenBiasは、事前コンパイルされた集合にアクセスすることなく、バイアスの深刻度を不可知的に識別し、定量化する。
本研究では, 安定拡散1.5, 2, XLの挙動について検討した。
論文 参考訳(メタデータ) (2024-04-11T17:59:56Z) - Manipulating and Mitigating Generative Model Biases without Retraining [49.60774626839712]
モデル再学習を伴わないリッチ言語埋め込み空間を利用して,T2Iモデルバイアスの動的かつ効率的な操作を提案する。
基礎ベクトル代数を利用することで、T2Iモデルの出力をシフトさせる言語モデルの埋め込みを便利に制御できることを示す。
副産物として、この制御は正確なプロンプト工学の一形態として機能し、通常のテキストプロンプトを使って一般的には理解できない画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T07:33:30Z) - Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - Semantic Adversarial Attacks via Diffusion Models [30.169827029761702]
セマンティック敵攻撃は、色、コンテキスト、特徴などのクリーンな例のセマンティック属性の変更に焦点を当てる。
本稿では,近年の拡散モデルを利用して,セマンティック・アタックを迅速に生成するフレームワークを提案する。
提案手法は,FIDが36.61である複数環境での攻撃成功率を約100%達成する。
論文 参考訳(メタデータ) (2023-09-14T02:57:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Diffusion Models for Imperceptible and Transferable Adversarial Attack [23.991194050494396]
本稿では,拡散モデルの生成的および識別的パワーを両立させることにより,新たな非受容的かつ伝達可能な攻撃を提案する。
提案手法であるDiffAttackは,対向攻撃場に拡散モデルを導入する最初の方法である。
論文 参考訳(メタデータ) (2023-05-14T16:02:36Z) - Fighting Fire with Fire: Contrastive Debiasing without Bias-free Data
via Generative Bias-transformation [31.944147533327058]
生成バイアス変換(CDvG)によるコントラスト劣化
本稿では, バイアスラベルやバイアスのないサンプルを伴わないCDvG (Generative Bias-Transformation) によるコントラスト的デバイアス(Contrastive Debiasing) 手法を提案する。
本手法は, バイアスのないサンプルが不足あるいは欠落している場合に, 従来の手法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2021-12-02T07:16:06Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Bias-based Universal Adversarial Patch Attack for Automatic Check-out [59.355948824578434]
逆の例は、ディープニューラルネットワーク(DNN)を簡単に誤解させる、知覚不能な摂動を持つ入力である。
既存の戦略は強力な一般化能力を持つ敵パッチを生成できなかった。
本稿では,強い一般化能力を持つクラス非依存の普遍的敵パッチを生成するためのバイアスベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-19T07:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。