論文の概要: Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2209.08891v3
- Date: Tue, 9 Jan 2024 06:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 21:07:35.760741
- Title: Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis
- Title(参考訳): テキスト・画像合成におけるホモグリフによる文化的バイアスの爆発
- Authors: Lukas Struppek, Dominik Hintersdorf, Felix Friedrich, Manuel Brack,
Patrick Schramowski, Kristian Kersting
- Abstract要約: テキスト・ツー・イメージ合成のモデルは近年,アカデミックや一般大衆から多くの関心を集めている。
テキスト記述に1文字の非ラテン語文字を挿入するだけで、共通のモデルが生成した画像の文化的ステレオタイプやバイアスを反映することを示す。
本稿では,テキストエンコーダを微調整する新しいホモグリフアンラーニング手法を提案する。
- 参考スコア(独自算出の注目度): 33.080261792998826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models for text-to-image synthesis, such as DALL-E~2 and Stable Diffusion,
have recently drawn a lot of interest from academia and the general public.
These models are capable of producing high-quality images that depict a variety
of concepts and styles when conditioned on textual descriptions. However, these
models adopt cultural characteristics associated with specific Unicode scripts
from their vast amount of training data, which may not be immediately apparent.
We show that by simply inserting single non-Latin characters in a textual
description, common models reflect cultural stereotypes and biases in their
generated images. We analyze this behavior both qualitatively and
quantitatively, and identify a model's text encoder as the root cause of the
phenomenon. Additionally, malicious users or service providers may try to
intentionally bias the image generation to create racist stereotypes by
replacing Latin characters with similarly-looking characters from non-Latin
scripts, so-called homoglyphs. To mitigate such unnoticed script attacks, we
propose a novel homoglyph unlearning method to fine-tune a text encoder, making
it robust against homoglyph manipulations.
- Abstract(参考訳): DALL-E~2やStable Diffusionのようなテキストと画像の合成モデルは近年、学術や一般大衆から多くの関心を集めている。
これらのモデルは、テキスト記述に基づいて様々な概念やスタイルを表現した高品質な画像を生成することができる。
しかしこれらのモデルは、大量のトレーニングデータから特定のUnicodeスクリプトに関連する文化的特徴を取り入れているが、すぐには明らかではないかもしれない。
テキスト記述に1文字の非ラテン文字を挿入するだけで、共通のモデルが生成した画像に文化的ステレオタイプやバイアスを反映することを示す。
この挙動を定性的かつ定量的に分析し,モデルのテキストエンコーダを現象の根本原因として同定する。
さらに悪意のあるユーザやサービスプロバイダは、ラテン文字を非ラテン文字(いわゆるホモグリフ)の類似した文字に置き換えることで、画像生成を意図的にバイアスして人種差別的なステレオタイプを作成しようとする。
このような未知のスクリプト攻撃を軽減するために,テキストエンコーダを微調整する新しいホモグリフアンラーニング手法を提案する。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training [68.41837295318152]
拡散に基づくテキスト・ツー・イメージモデルでは、多様性と美学の素晴らしい成果が示されているが、視覚的なテキストで画像を生成するのに苦労している。
既存のバックボーンモデルには、ミススペル、テキスト生成の失敗、中国語テキストのサポートの欠如といった制限がある。
本稿では,英語と中国語の視覚テキスト生成にバックボーンモデルを活用するための一連の手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T10:25:39Z) - Learning to Generate Text in Arbitrary Writing Styles [6.7308816341849695]
言語モデルは、潜在的に小さな文章サンプルに基づいて、著者固有のスタイルでテキストを作成することが望ましい。
本稿では,テクスチャ的特徴を捉えた対照的に訓練された表現を用いて,ターゲットスタイルのテキストを生成するための言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:58:52Z) - Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - Character-Aware Models Improve Visual Text Rendering [57.19915686282047]
現在の画像生成モデルは、十分に整形されたビジュアルテキストを生成するのに苦労している。
文字認識モデルは、新しい綴りタスクに大きな利益をもたらす。
われわれのモデルでは、ビジュアルスペルの精度は比較的高く、稀な単語の競合よりも30以上の精度が向上した。
論文 参考訳(メタデータ) (2022-12-20T18:59:23Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。