論文の概要: Severity Controlled Text-to-Image Generative Model Bias Manipulation
- arxiv url: http://arxiv.org/abs/2404.02530v1
- Date: Wed, 3 Apr 2024 07:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:10:13.062940
- Title: Severity Controlled Text-to-Image Generative Model Bias Manipulation
- Title(参考訳): 重大性制御によるテキスト・画像生成モデルバイアス操作
- Authors: Jordan Vice, Naveed Akhtar, Richard Hartley, Ajmal Mian,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成モデルは,特にパブリックドメインにおいて広く普及している。
まず,組込み言語モデルによるモデルバイアスの動的かつ効率的な活用の可能性を明らかにする。
我々は,T2Iモデルの潜在的な操作可能性を明らかにするために,興味深い定性的,定量的な結果を示す。
- 参考スコア(独自算出の注目度): 49.60774626839712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) generative models are gaining wide popularity, especially in public domains. However, their intrinsic bias and potential malicious manipulations remain under-explored. Charting the susceptibility of T2I models to such manipulation, we first expose the new possibility of a dynamic and computationally efficient exploitation of model bias by targeting the embedded language models. By leveraging mathematical foundations of vector algebra, our technique enables a scalable and convenient control over the severity of output manipulation through model bias. As a by-product, this control also allows a form of precise prompt engineering to generate images which are generally implausible with regular text prompts. We also demonstrate a constructive application of our manipulation for balancing the frequency of generated classes - as in model debiasing. Our technique does not require training and is also framed as a backdoor attack with severity control using semantically-null text triggers in the prompts. With extensive analysis, we present interesting qualitative and quantitative results to expose potential manipulation possibilities for T2I models. Key-words: Text-to-Image Models, Generative Models, Backdoor Attacks, Prompt Engineering, Bias
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルは,特にパブリックドメインにおいて広く普及している。
しかし、本質的な偏見と潜在的な悪意のある操作はいまだ未発見のままである。
このような操作に対するT2Iモデルの感受性をグラフ化し、組込み言語モデルをターゲットにして、モデルバイアスを動的かつ計算的に効果的に活用する新たな可能性を明らかにする。
ベクトル代数の数学的基礎を活用することにより、モデルバイアスによる出力操作の重大性に対するスケーラブルで便利な制御を可能にする。
副産物として、この制御は、正確なプロンプトエンジニアリングの形式によって、通常テキストプロンプトで一般に理解できない画像を生成することを可能にする。
また、モデルデバイアスのように、生成されたクラスの頻度のバランスをとるための操作の構成的応用を示す。
本手法はトレーニングを必要とせず,プロンプト内の意味的に無効なテキストトリガを用いた重大度制御によるバックドアアタックとしてフレーム化されている。
本稿では,T2Iモデルの潜在的な操作可能性を明らかにするために,興味深い定性的および定量的な結果を示す。
キーワード:テキスト・ツー・イメージモデル、生成モデル、バックドアアタック、プロンプトエンジニアリング、バイアス
関連論文リスト
- Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Utilizing Adversarial Examples for Bias Mitigation and Accuracy Enhancement [3.0820287240219795]
本稿では,コンピュータビジョンモデルにおけるバイアスを軽減するための新しい手法を提案する。
提案手法は,カリキュラム学習フレームワークと詳細な逆数損失を組み合わせることで,逆数例を用いてモデルを微調整する。
我々は,定性評価と定量的評価を併用し,従来の方法と比較してバイアス緩和と精度の向上を実証した。
論文 参考訳(メタデータ) (2024-04-18T00:41:32Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness [15.059419033330126]
生成テキストから画像への展開後のバイアスを軽減するために,Fair Diffusionと呼ばれる新しい手法を提案する。
具体的には、人間の指示に基づいて、任意の方向にバイアスをシフトさせることで、例えば、アイデンティティグループに対して任意に新しい比率が得られることを示す。
この制御を導入することで、データフィルタリングや追加のトレーニングを必要とせず、公平さで生成イメージモデルを指示することができる。
論文 参考訳(メタデータ) (2023-02-07T18:25:28Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Better sampling in explanation methods can prevent dieselgate-like
deception [0.0]
予測モデルの解釈性は、それらのバイアスとエラーの原因を決定するために必要である。
IME、LIME、SHAPなどの一般的なテクニックでは、インスタンス機能の摂動を使用して個々の予測を説明します。
改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。
論文 参考訳(メタデータ) (2021-01-26T13:41:37Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Backdoor Attacks against Transfer Learning with Pre-trained Deep
Learning Models [23.48763375455514]
転送学習は、精度の高いTextitStudentモデルの実現可能性と高速なカスタマイズのための効果的なソリューションを提供する。
多くの事前訓練された教師モデルは公開されており、公開プラットフォームによって維持されており、バックドア攻撃に対する脆弱性が増大している。
本研究では,教師の知識を活かした画像データと時系列データの両方で学習タスクを伝達するバックドアの脅威を実証する。
論文 参考訳(メタデータ) (2020-01-10T01:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。