論文の概要: Illiterate DALL-E Learns to Compose
- arxiv url: http://arxiv.org/abs/2110.11405v2
- Date: Wed, 27 Oct 2021 18:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 09:07:56.081870
- Title: Illiterate DALL-E Learns to Compose
- Title(参考訳): Illiterate DALL-E Learns to Compose
- Authors: Gautam Singh, Fei Deng and Sungjin Ahn
- Abstract要約: 両世界の長所を組み合わせるため,SLATEと呼ばれる単純だが斬新な自動符号化アーキテクチャを提案する。
既存のオブジェクト中心表現モデルの画素混合デコーダとは異なり、スロットに条件付き画像GPTデコーダを使用することを提案する。
実験では,テキストのプロンプトを必要とせず,簡単に実装できるこのアーキテクチャが,非配布および非配布(ゼロショット)画像生成の大幅な改善を実現することを示す。
- 参考スコア(独自算出の注目度): 23.052860198023474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although DALL-E has shown an impressive ability of composition-based
systematic generalization in image generation, it requires the dataset of
text-image pairs and the compositionality is provided by the text. In contrast,
object-centric representation models like the Slot Attention model learn
composable representations without the text prompt. However, unlike DALL-E its
ability to systematically generalize for zero-shot generation is significantly
limited. In this paper, we propose a simple but novel slot-based autoencoding
architecture, called SLATE, for combining the best of both worlds: learning
object-centric representations that allows systematic generalization in
zero-shot image generation without text. As such, this model can also be seen
as an illiterate DALL-E model. Unlike the pixel-mixture decoders of existing
object-centric representation models, we propose to use the Image GPT decoder
conditioned on the slots for capturing complex interactions among the slots and
pixels. In experiments, we show that this simple and easy-to-implement
architecture not requiring a text prompt achieves significant improvement in
in-distribution and out-of-distribution (zero-shot) image generation and
qualitatively comparable or better slot-attention structure than the models
based on mixture decoders.
- Abstract(参考訳): DALL-Eは、画像生成において合成に基づく体系的一般化の印象的な能力を示しているが、テキストイメージペアのデータセットが必要であり、その構成性はテキストによって提供される。
対照的に、Slot Attentionモデルのようなオブジェクト中心の表現モデルは、テキストプロンプトなしで構成可能な表現を学ぶ。
しかし、DALL-Eとは異なり、ゼロショット生成のために体系的に一般化する能力は著しく制限されている。
本稿では,テキストを使わずにゼロショット画像生成を体系的に一般化するオブジェクト中心表現を学習する,SLATEと呼ばれる,単純だが斬新なスロットベースの自動符号化アーキテクチャを提案する。
したがって、このモデルはイルミネートDALL-Eモデルと見なすこともできる。
既存のオブジェクト中心表現モデルの画素混合デコーダとは異なり、スロットに条件付き画像GPTデコーダを用いて、スロットとピクセル間の複雑な相互作用をキャプチャする。
実験では,テキストプロンプトを必要とせず,簡単に実装できるこのアーキテクチャは,非分配性および非分配性(ゼロショット)画像生成の大幅な向上と,混合デコーダに基づくモデルよりも定性的に同等あるいは優れたスロットアテンション構造を実現する。
関連論文リスト
- Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。