論文の概要: Schr\"{o}dinger's Bat: Diffusion Models Sometimes Generate Polysemous
Words in Superposition
- arxiv url: http://arxiv.org/abs/2211.13095v1
- Date: Wed, 23 Nov 2022 16:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:05:46.808133
- Title: Schr\"{o}dinger's Bat: Diffusion Models Sometimes Generate Polysemous
Words in Superposition
- Title(参考訳): Schr\{o}dinger's Bat:拡散モデルが重ね合わせで多文語を生成することがある
- Authors: Jennifer C. White, Ryan Cotterell
- Abstract要約: 近年の研究では、プロンプトが複数の意味を持つ単語を含む場合、テキストから画像への拡散モデルが奇妙な振る舞いを示すことが示されている。
2つの単語のエンコーディングの総和である入力を与えられた場合、このモデルは、この和に表される両方の概念を含む画像を生成することができることを示す。
次に,CLIPエンコーダを用いてプロンプトをエンコードし,意味の重ね合わせとして多文語をエンコードし,線形代数的手法を用いてこれらの表現を編集し,生成した画像に表される感覚に影響を与えることを示した。
- 参考スコア(独自算出の注目度): 71.45263447328374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that despite their impressive capabilities,
text-to-image diffusion models such as DALL-E 2 (Ramesh et al., 2022) can
display strange behaviours when a prompt contains a word with multiple possible
meanings, often generating images containing both senses of the word (Rassin et
al., 2022). In this work we seek to put forward a possible explanation of this
phenomenon. Using the similar Stable Diffusion model (Rombach et al., 2022), we
first show that when given an input that is the sum of encodings of two
distinct words, the model can produce an image containing both concepts
represented in the sum. We then demonstrate that the CLIP encoder used to
encode prompts (Radford et al., 2021) encodes polysemous words as a
superposition of meanings, and that using linear algebraic techniques we can
edit these representations to influence the senses represented in the generated
images. Combining these two findings, we suggest that the homonym duplication
phenomenon described by Rassin et al. (2022) is caused by diffusion models
producing images representing both of the meanings that are present in
superposition in the encoding of a polysemous word.
- Abstract(参考訳): 近年の研究では、DALL-E 2 (Ramesh et al., 2022) のようなテキストと画像の拡散モデルは印象的な機能にもかかわらず、プロンプトが複数の意味を持つ単語を含むと奇妙な振る舞いを示すことが示されている(Rassin et al., 2022)。
この研究で我々はこの現象の考えられる説明を試みている。
類似の安定拡散モデル(rombach et al., 2022)を用いて、2つの異なる単語のエンコーディングの和である入力が与えられると、モデルが2つの概念を合計で表現した画像を生成できることを示す。
次に,プロンプトを符号化するために使用されるクリップエンコーダ(radford et al., 2021)が意味の重ね合わせとして多義語を符号化し,線形代数的手法を用いてこれらの表現を編集して生成画像に表される感覚に影響を与えることができることを示す。
これらの2つの知見を組み合わせることで,Rassinらによる同名の重複現象(2022年)は,多文単語の符号化において重ね合わせに存在する意味の両方を表す画像を生成する拡散モデルによって引き起こされると考えられる。
関連論文リスト
- Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - DALLE-2 is Seeing Double: Flaws in Word-to-Concept Mapping in Text2Image
Models [53.29993651680099]
DALLE-2は各単語が解釈においてひとつの役割を持つという制約に従わないことを示す。
DALLE-2は、複数の感覚を持つ名詞の両感覚を同時に表現している。
論文 参考訳(メタデータ) (2022-10-19T14:52:40Z) - Adversarial Attacks on Image Generation With Made-Up Words [0.0]
テキスト誘導画像生成モデルは、特定の視覚概念を誘発するように設計されたナンスワードを用いて画像を生成するよう促すことができる。
コンテンツモデレーションへの既存アプローチの回避にこれらの手法がもたらす影響について論じる。
論文 参考訳(メタデータ) (2022-08-04T15:10:23Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Diffusion Autoencoders: Toward a Meaningful and Decodable Representation [1.471992435706872]
拡散モデル(DPM)は、GANと競合する画像生成において顕著な品質を実現している。
GANとは異なり、DPMは意味的な意味がなく、他のタスクの有用な表現として機能しない潜在変数のセットを使用する。
本稿では,DPMを用いた表現学習の可能性について検討し,自動符号化による入力画像の有意義でデオード可能な表現の抽出を試みている。
論文 参考訳(メタデータ) (2021-11-30T18:24:04Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。