論文の概要: GLIGEN: Open-Set Grounded Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2301.07093v2
- Date: Mon, 17 Apr 2023 01:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 21:22:47.743391
- Title: GLIGEN: Open-Set Grounded Text-to-Image Generation
- Title(参考訳): GLIGEN: オープンセットのテキスト-画像生成
- Authors: Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang,
Jianfeng Gao, Chunyuan Li, Yong Jae Lee
- Abstract要約: Grounded-Language-to-Image Generationは、既存のテキスト・画像拡散モデルの機能を基盤として拡張した新しいアプローチである。
我々のモデルは、キャプションとバウンディングボックス条件入力で、オープンワールドの接地テキスト2img生成を実現する。
GLIGENのCOCOおよびLVISでのゼロショット性能は、既存の教師付きレイアウト・ツー・イメージベースラインよりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 97.72536364118024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image diffusion models have made amazing advances.
However, the status quo is to use text input alone, which can impede
controllability. In this work, we propose GLIGEN, Grounded-Language-to-Image
Generation, a novel approach that builds upon and extends the functionality of
existing pre-trained text-to-image diffusion models by enabling them to also be
conditioned on grounding inputs. To preserve the vast concept knowledge of the
pre-trained model, we freeze all of its weights and inject the grounding
information into new trainable layers via a gated mechanism. Our model achieves
open-world grounded text2img generation with caption and bounding box condition
inputs, and the grounding ability generalizes well to novel spatial
configurations and concepts. GLIGEN's zero-shot performance on COCO and LVIS
outperforms that of existing supervised layout-to-image baselines by a large
margin.
- Abstract(参考訳): 大規模テキスト・画像拡散モデルは驚くべき進歩を遂げた。
しかし、ステータスクオはテキスト入力のみを使用することで、制御可能性を妨げる可能性がある。
本研究では,GLIGEN, Grounded-Language-to-Image Generationを提案する。GLIGENは,既存の学習済みテキスト・画像拡散モデルの機能を基盤として構築し,拡張する新しいアプローチである。
事前学習されたモデルの膨大な概念知識を維持するため、全ての重量を凍結し、ゲート機構を介して新しいトレーニング可能な層に接地情報を注入する。
提案モデルでは,キャプションとバウンディングボックス条件入力によるオープンワールドのグラウンドドテキスト2img生成を実現し,グラウンド化能力は空間構成や概念に優れる。
GLIGENのCOCOおよびLVISでのゼロショット性能は、既存の教師付きレイアウト・ツー・イメージベースラインよりも大きなマージンで優れている。
関連論文リスト
- LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual
Grounders [31.371338262371122]
VGDiffZeroは、テキストから画像への拡散モデルに基づくゼロショットのビジュアルグラウンドティングフレームワークである。
VGDiffZeroはゼロショット映像のグラウンド化において高い性能を示す。
論文 参考訳(メタデータ) (2023-09-03T11:32:28Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Freestyle Layout-to-Image Synthesis [42.64485133926378]
この研究では、モデルの自由なスタイルの能力、すなわち、与えられたレイアウト上に見知らぬセマンティクスをどの程度生成できるかを探索する。
これに触発されて、我々は、大規模事前訓練されたテキスト-画像拡散モデルを利用して、目に見えないセマンティクスを生成することを選んだ。
提案した拡散ネットワークは,テキスト入力を多用したリアルかつ自由なレイアウト・ツー・イメージ生成結果を生成する。
論文 参考訳(メタデータ) (2023-03-25T09:37:41Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。