論文の概要: Controllable Text-to-Image Generation with GPT-4
- arxiv url: http://arxiv.org/abs/2305.18583v1
- Date: Mon, 29 May 2023 19:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:25:32.777329
- Title: Controllable Text-to-Image Generation with GPT-4
- Title(参考訳): GPT-4による可制御型テキスト・画像生成
- Authors: Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang
- Abstract要約: 我々は,GPT-4によって生成されたプログラムスケッチを用いて,拡散に基づくテキスト-画像パイプラインをガイドする制御-GPTを導入する。
Control-GPTはGPT-4に問い合わせてTikZコードを書き、生成されたスケッチは拡散モデルのテキスト命令と共に参照として使用される。
- 参考スコア(独自算出の注目度): 15.647246177542682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current text-to-image generation models often struggle to follow textual
instructions, especially the ones requiring spatial reasoning. On the other
hand, Large Language Models (LLMs), such as GPT-4, have shown remarkable
precision in generating code snippets for sketching out text inputs
graphically, e.g., via TikZ. In this work, we introduce Control-GPT to guide
the diffusion-based text-to-image pipelines with programmatic sketches
generated by GPT-4, enhancing their abilities for instruction following.
Control-GPT works by querying GPT-4 to write TikZ code, and the generated
sketches are used as references alongside the text instructions for diffusion
models (e.g., ControlNet) to generate photo-realistic images. One major
challenge to training our pipeline is the lack of a dataset containing aligned
text, images, and sketches. We address the issue by converting instance masks
in existing datasets into polygons to mimic the sketches used at test time. As
a result, Control-GPT greatly boosts the controllability of image generation.
It establishes a new state-of-art on the spatial arrangement and object
positioning generation and enhances users' control of object positions, sizes,
etc., nearly doubling the accuracy of prior models. Our work, as a first
attempt, shows the potential for employing LLMs to enhance the performance in
computer vision tasks.
- Abstract(参考訳): 現在のテキスト・ツー・イメージ生成モデルは、テキストの指示に従うのに苦労することが多い。
一方、GPT-4のようなLLM(Large Language Models)は、例えばTikZを通じてテキスト入力をグラフィカルにスケッチするコードスニペットを生成する際、顕著な精度を示している。
本稿では,GPT-4 が生成するプログラムスケッチを用いて,拡散に基づくテキスト・画像・パイプラインをガイドする Control-GPT を提案する。
Control-GPT は GPT-4 に問い合わせて TikZ のコードを書き、生成したスケッチは拡散モデル(例えば ControlNet)のテキスト命令と共に参照として使われ、フォトリアリスティックな画像を生成する。
パイプラインをトレーニングする上で大きな課題のひとつは、整列したテキスト、イメージ、スケッチを含むデータセットがないことです。
既存のデータセットのインスタンスマスクをポリゴンに変換して、テスト時に使用するスケッチを模倣することで、この問題に対処する。
その結果、制御-GPTは画像生成の制御可能性を大幅に向上させる。
空間配置と物体位置決め生成に関する新たな技術を確立し、ユーザのオブジェクトの位置やサイズなどの制御を強化し、事前モデルの精度をほぼ2倍にする。
最初の試みとして,コンピュータビジョンタスクの性能向上にLLMを採用する可能性を示す。
関連論文リスト
- MiniGPT-Reverse-Designing: Predicting Image Adjustments Utilizing MiniGPT-4 [0.0]
VLM(Vision-Language Models)は近年,LLM(Large Language Models)との統合によって,大幅な進歩を遂げている。
本稿では,逆設計タスクのためにMiniGPT-4を拡張し,微調整する。
論文 参考訳(メタデータ) (2024-06-03T03:59:29Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - GlyphControl: Glyph Conditional Control for Visual Text Generation [23.11989365761579]
我々はGlyphControlという新しい効率的な手法を提案し、コヒーレントでよく表現されたビジュアルテキストを生成する。
glyph命令を組み込むことで、ユーザーは特定の要求に応じて生成されたテキストの内容、場所、サイズをカスタマイズできる。
GlyphControlはOCR精度,CLIPスコア,FIDにおいて,最近のDeepFloyd IFアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-05-29T17:27:59Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Language Models Can See: Plugging Visual Controls in Text Generation [48.05127160095048]
本稿では,生成プロセスにおいて視覚制御をプラグインする,MAGICと呼ばれる学習不要のフレームワークを提案する。
MAGICは、既製のLM(GPT-2)と画像グラウンドドテキスト生成のための画像テキストマッチングモデル(CLIP)を直接組み合わせた、プラグアンドプレイのフレームワークである。
ゼロショット画像キャプションの課題に対して、MAGICは最先端の手法を顕著なマージンで上回り、27倍のデコードスピードアップを達成している。
論文 参考訳(メタデータ) (2022-05-05T13:56:18Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。