論文の概要: Adversarial Attacks on Image Generation With Made-Up Words
- arxiv url: http://arxiv.org/abs/2208.04135v1
- Date: Thu, 4 Aug 2022 15:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:15:53.443007
- Title: Adversarial Attacks on Image Generation With Made-Up Words
- Title(参考訳): 造語による画像生成に対する敵対的攻撃
- Authors: Rapha\"el Milli\`ere
- Abstract要約: テキスト誘導画像生成モデルは、特定の視覚概念を誘発するように設計されたナンスワードを用いて画像を生成するよう促すことができる。
コンテンツモデレーションへの既存アプローチの回避にこれらの手法がもたらす影響について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided image generation models can be prompted to generate images using
nonce words adversarially designed to robustly evoke specific visual concepts.
Two approaches for such generation are introduced: macaronic prompting, which
involves designing cryptic hybrid words by concatenating subword units from
different languages; and evocative prompting, which involves designing nonce
words whose broad morphological features are similar enough to that of existing
words to trigger robust visual associations. The two methods can also be
combined to generate images associated with more specific visual concepts. The
implications of these techniques for the circumvention of existing approaches
to content moderation, and particularly the generation of offensive or harmful
images, are discussed.
- Abstract(参考訳): テキスト誘導画像生成モデルは、特定の視覚概念を強固に誘発するように設計されたナンスワードを用いて画像を生成するよう促すことができる。
このような生成のための2つのアプローチが紹介されている: macaronic promptingは、異なる言語からのサブワードユニットを結合して、暗号的なハイブリッドワードを設計すること、そしてエボレーティブプロンプトは、既存の単語と十分に類似した形態的特徴を持つナンスワードをデザインすることで、堅牢な視覚関連を引き起こす。
2つの手法を組み合わせることで、より特定の視覚概念に関連する画像を生成することもできる。
コンテンツモデレーションへの既存のアプローチ,特に攻撃的あるいは有害な画像の生成を回避するために,これらの手法がもたらす意味について論じる。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - META4: Semantically-Aligned Generation of Metaphoric Gestures Using
Self-Supervised Text and Speech Representation [2.7317088388886384]
本稿では,音声と画像の両方からメタファ的ジェスチャーを生成する深層学習手法META4を紹介する。
提案手法の主な目的は,入力テキストからイメージを抽出し,その基盤となる意味と比喩的意味を捉えること,および音声と計算された画像スキーマによって駆動される比喩的なジェスチャーを生成することである。
論文 参考訳(メタデータ) (2023-11-09T16:16:31Z) - Circumventing Concept Erasure Methods For Text-to-Image Generative
Models [26.804057000265434]
テキストから画像への生成モデルは、非常に幅広い概念のフォトリアリスティック画像を生成することができる。
これらのモデルには、性的に明示的なコンテンツを特徴とする画像を生成する可能性など、多くの欠点がある。
テキスト・ツー・イメージ・モデルからセンシティブな概念を「取り除く」ための様々な手法が提案されている。
論文 参考訳(メタデータ) (2023-08-03T02:34:01Z) - Unsupervised Compositional Concepts Discovery with Text-to-Image
Generative Models [80.75258849913574]
本稿では、異なる画像の集合を考えると、各画像を表す生成概念を発見できるかという逆問題を考える。
本稿では,画像の集合から生成概念を抽出し,絵画やオブジェクト,キッチンシーンからの照明から異なる美術スタイルを分離し,イメージネット画像から得られる画像クラスを発見するための教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:02:15Z) - Affect-Conditioned Image Generation [0.9668407688201357]
本稿では,心理学的に検証された3成分アプローチを用いて,所望の感情によって条件付けられた画像を生成する手法を提案する。
まず、セマンティック埋め込みからテキストや画像の影響内容を推定するためにニューラルネットワークをトレーニングし、それを様々な生成モデルを制御するためにどのように使用できるかを実証する。
論文 参考訳(メタデータ) (2023-02-20T03:44:04Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Best Prompts for Text-to-Image Models and How to Find Them [1.9531522349116028]
遺伝的アルゴリズムを用いて,最も有用なキーワードの組み合わせを学習する。
このようなアプローチが,同じ記述を描写した画像の美的魅力をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2022-09-23T16:39:13Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。