論文の概要: The Biased Artist: Exploiting Cultural Biases via Homoglyphs in
Text-Guided Image Generation Models
- arxiv url: http://arxiv.org/abs/2209.08891v1
- Date: Mon, 19 Sep 2022 09:48:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:58:56.906223
- Title: The Biased Artist: Exploiting Cultural Biases via Homoglyphs in
Text-Guided Image Generation Models
- Title(参考訳): バイアスド・アーティスト:テキスト誘導画像生成モデルにおけるホモグリフによる文化バイアスの活用
- Authors: Lukas Struppek, Dominik Hintersdorf, Kristian Kersting
- Abstract要約: マルチモーダルモデルは、生成した画像にトリガーおよび注入できる文化バイアスを暗黙的に学習する。
いわゆるホモグリフ置換によって、悪意のあるユーザやサービスプロバイダが生成したイメージにバイアスを発生させることができる。
以上の結果から,多言語データを用いたテキストエンコーダは,ホモグリフ置換の効果を緩和する手段となることが示唆された。
- 参考スコア(独自算出の注目度): 16.421253324649555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image generation models, such as DALL-E 2 and Stable Diffusion,
have recently received much attention from academia and the general public.
Provided with textual descriptions, these models are capable of generating
high-quality images depicting various concepts and styles. However, such models
are trained on large amounts of public data and implicitly learn relationships
from their training data that are not immediately apparent. We demonstrate that
common multimodal models implicitly learned cultural biases that can be
triggered and injected into the generated images by simply replacing single
characters in the textual description with visually similar non-Latin
characters. These so-called homoglyph replacements enable malicious users or
service providers to induce biases into the generated images and even render
the whole generation process useless. We practically illustrate such attacks on
DALL-E 2 and Stable Diffusion as text-guided image generation models and
further show that CLIP also behaves similarly. Our results further indicate
that text encoders trained on multilingual data provide a way to mitigate the
effects of homoglyph replacements.
- Abstract(参考訳): DALL-E 2やStable Diffusionのようなテキスト誘導画像生成モデルは、最近、学界や一般大衆から注目を集めている。
テキストによる記述により、これらのモデルは様々な概念やスタイルを描いた高品質な画像を生成することができる。
しかし、そのようなモデルは大量の公開データに基づいて訓練され、すぐには明らかでないトレーニングデータから暗黙的に関係を学習する。
テキスト記述の単一文字を視覚的に類似する非ラチン文字に置き換えることで、生成された画像にトリガー・注入できる文化バイアスを暗黙的に学習する共通マルチモーダルモデルを示す。
いわゆるホモグリフの置き換えによって、悪意のあるユーザやサービスプロバイダが生成したイメージにバイアスを発生させ、生成プロセス全体を無駄にすることができる。
テキスト誘導画像生成モデルとして,DALL-E 2とStable Diffusionに対するこのような攻撃を実際に説明し,CLIPも同様に動作することを示す。
また,多言語データで学習したテキストエンコーダは,ホモグリフ置換の効果を緩和する方法であることを示す。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training [68.41837295318152]
拡散に基づくテキスト・ツー・イメージモデルでは、多様性と美学の素晴らしい成果が示されているが、視覚的なテキストで画像を生成するのに苦労している。
既存のバックボーンモデルには、ミススペル、テキスト生成の失敗、中国語テキストのサポートの欠如といった制限がある。
本稿では,英語と中国語の視覚テキスト生成にバックボーンモデルを活用するための一連の手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T10:25:39Z) - Learning to Generate Text in Arbitrary Writing Styles [6.7308816341849695]
言語モデルは、潜在的に小さな文章サンプルに基づいて、著者固有のスタイルでテキストを作成することが望ましい。
本稿では,テクスチャ的特徴を捉えた対照的に訓練された表現を用いて,ターゲットスタイルのテキストを生成するための言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:58:52Z) - Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - Character-Aware Models Improve Visual Text Rendering [57.19915686282047]
現在の画像生成モデルは、十分に整形されたビジュアルテキストを生成するのに苦労している。
文字認識モデルは、新しい綴りタスクに大きな利益をもたらす。
われわれのモデルでは、ビジュアルスペルの精度は比較的高く、稀な単語の競合よりも30以上の精度が向上した。
論文 参考訳(メタデータ) (2022-12-20T18:59:23Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。