Fugu-MT 論文翻訳(概要): Manipulating and Mitigating Generative Model Biases without Retraining

論文の概要: Manipulating and Mitigating Generative Model Biases without Retraining

arxiv url: http://arxiv.org/abs/2404.02530v2
Date: Tue, 17 Sep 2024 01:07:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 22:20:44.239806
Title: Manipulating and Mitigating Generative Model Biases without Retraining
Title（参考訳）: リトレーニングを伴わない生成モデルバイアスの操作と緩和
Authors: Jordan Vice, Naveed Akhtar, Richard Hartley, Ajmal Mian,
Abstract要約: モデル再学習を伴わないリッチ言語埋め込み空間を利用して,T2Iモデルバイアスの動的かつ効率的な操作を提案する。基礎ベクトル代数を利用することで、T2Iモデルの出力をシフトさせる言語モデルの埋め込みを便利に制御できることを示す。副産物として、この制御は正確なプロンプト工学の一形態として機能し、通常のテキストプロンプトを使って一般的には理解できない画像を生成する。
参考スコア（独自算出の注目度）: 49.60774626839712
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image (T2I) generative models have gained increased popularity in the public domain. While boasting impressive user-guided generative abilities, their black-box nature exposes users to intentionally- and intrinsically-biased outputs. Bias manipulation (and mitigation) techniques typically rely on careful tuning of learning parameters and training data to adjust decision boundaries to influence model bias characteristics, which is often computationally demanding. We propose a dynamic and computationally efficient manipulation of T2I model biases by exploiting their rich language embedding spaces without model retraining. We show that leveraging foundational vector algebra allows for a convenient control over language model embeddings to shift T2I model outputs and control the distribution of generated classes. As a by-product, this control serves as a form of precise prompt engineering to generate images which are generally implausible using regular text prompts. We demonstrate a constructive application of our technique by balancing the frequency of social classes in generated images, effectively balancing class distributions across three social bias dimensions. We also highlight a negative implication of bias manipulation by framing our method as a backdoor attack with severity control using semantically-null input triggers, reporting up to 100% attack success rate. Key-words: Text-to-Image Models, Generative Models, Bias, Prompt Engineering, Backdoor Attacks
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成モデルはパブリックドメインで人気が高まっている。ユーザーを誘導する優れた生成能力を誇っている一方で、そのブラックボックスの性質は、ユーザーが意図的に、本質的に偏ったアウトプットを公開している。バイアス操作(および緩和)技術は通常、学習パラメータの注意深いチューニングと、決定境界を調整するためのトレーニングデータに依存し、しばしば計算的に要求されるモデルバイアス特性に影響を与える。モデル再学習を伴わないリッチ言語埋め込み空間を利用して,T2Iモデルバイアスの動的かつ効率的な操作を提案する。基礎ベクトル代数を利用することで,T2Iモデルの出力をシフトし,生成されたクラスの分布を制御できる言語モデルの埋め込みを便利に制御できることを示す。副産物として、この制御は正確なプロンプト工学の一形態として機能し、通常のテキストプロンプトを使って一般的には理解できない画像を生成する。生成画像中の社会階層の頻度をバランスさせ,3つの社会的バイアス次元のクラス分布を効果的にバランスさせることにより,本手法の構築的応用を実証する。また,本手法をセマンティック・ヌル入力トリガを用いた重度制御によるバックドア攻撃とみなし,100%攻撃成功率を報告することによって,バイアス操作の負の影響も強調した。キーワード:テキスト・ツー・イメージモデル、生成モデル、バイアス、プロンプトエンジニアリング、バックドア攻撃

関連論文リスト

AutoDebias: Automated Framework for Debiasing Text-to-Image Models [6.581606189725493]
テキスト・ツー・イメージ(T2I)モデルはテキスト・プロンプトから高品質な画像を生成するが、しばしば意図しない社会的偏見を示す。本稿では,T2Iモデルにおける有害バイアスを自動的に識別・緩和するフレームワークであるAutoDebiasを提案する。このフレームワークを25以上のバイアスシナリオをカバーするベンチマークで評価する。
論文参考訳（メタデータ） (2025-08-01T09:05:45Z)
Implicit Bias Injection Attacks against Text-to-Image Diffusion Models [17.131167390657243]
偏りのあるT2Iモデルは特定の傾向のあるコンテンツを生成し、人々の知覚に影響を与える可能性がある。本稿では,視覚的特徴に欠けるが,多様な方法で現れる新しい形態の暗黙バイアスを紹介する。本稿では,T2I拡散モデルに対する暗黙バイアス注入攻撃フレームワーク(IBI-Attacks)を提案する。
論文参考訳（メタデータ） (2025-04-02T15:24:12Z)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文参考訳（メタデータ） (2024-06-21T01:37:39Z)
Utilizing Adversarial Examples for Bias Mitigation and Accuracy Enhancement [3.0820287240219795]
本稿では,コンピュータビジョンモデルにおけるバイアスを軽減するための新しい手法を提案する。提案手法は,カリキュラム学習フレームワークと詳細な逆数損失を組み合わせることで,逆数例を用いてモデルを微調整する。我々は,定性評価と定量的評価を併用し,従来の方法と比較してバイアス緩和と精度の向上を実証した。
論文参考訳（メタデータ） (2024-04-18T00:41:32Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文参考訳（メタデータ） (2023-07-31T08:34:24Z)
Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness [15.059419033330126]
生成テキストから画像への展開後のバイアスを軽減するために,Fair Diffusionと呼ばれる新しい手法を提案する。具体的には、人間の指示に基づいて、任意の方向にバイアスをシフトさせることで、例えば、アイデンティティグループに対して任意に新しい比率が得られることを示す。この制御を導入することで、データフィルタリングや追加のトレーニングを必要とせず、公平さで生成イメージモデルを指示することができる。
論文参考訳（メタデータ） (2023-02-07T18:25:28Z)
Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文参考訳（メタデータ） (2023-01-31T20:09:33Z)
Better sampling in explanation methods can prevent dieselgate-like deception [0.0]
予測モデルの解釈性は、それらのバイアスとエラーの原因を決定するために必要である。 IME、LIME、SHAPなどの一般的なテクニックでは、インスタンス機能の摂動を使用して個々の予測を説明します。改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。
論文参考訳（メタデータ） (2021-01-26T13:41:37Z)
Learning from others' mistakes: Avoiding dataset biases without modeling them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。本稿では,これらの問題点を無視する学習モデルについて述べる。
論文参考訳（メタデータ） (2020-12-02T16:10:54Z)
Backdoor Attacks against Transfer Learning with Pre-trained Deep Learning Models [23.48763375455514]
転送学習は、精度の高いTextitStudentモデルの実現可能性と高速なカスタマイズのための効果的なソリューションを提供する。多くの事前訓練された教師モデルは公開されており、公開プラットフォームによって維持されており、バックドア攻撃に対する脆弱性が増大している。本研究では,教師の知識を活かした画像データと時系列データの両方で学習タスクを伝達するバックドアの脅威を実証する。
論文参考訳（メタデータ） (2020-01-10T01:31:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。