Fugu-MT 論文翻訳(概要): Zero-shot spatial layout conditioning for text-to-image diffusion models

論文の概要: Zero-shot spatial layout conditioning for text-to-image diffusion models

arxiv url: http://arxiv.org/abs/2306.13754v1
Date: Fri, 23 Jun 2023 19:24:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 19:17:28.746324
Title: Zero-shot spatial layout conditioning for text-to-image diffusion models
Title（参考訳）: テキスト・画像拡散モデルのためのゼロショット空間配置条件付け
Authors: Guillaume Couairon, Marl\`ene Careil, Matthieu Cord, St\'ephane Lathuili\`ere, Jakob Verbeek
Abstract要約: 大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。 ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
参考スコア（独自算出の注目度）: 52.24744018240424
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image generation process. Expressing spatial constraints, e.g. to position specific objects in particular locations, is cumbersome using text; and current text-based image generation models are not able to accurately follow such instructions. In this paper we consider image generation from text associated with segments on the image canvas, which combines an intuitive natural language interface with precise spatial control over the generated content. We propose ZestGuide, a zero-shot segmentation guidance approach that can be plugged into pre-trained text-to-image diffusion models, and does not require any additional training. It leverages implicit segmentation maps that can be extracted from cross-attention layers, and uses them to align the generation with input masks. Our experimental results combine high image quality with accurate alignment of generated content with input segmentations, and improve over prior work both quantitatively and qualitatively, including methods that require training on images with corresponding segmentations. Compared to Paint with Words, the previous state-of-the art in image generation with zero-shot segmentation conditioning, we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.
Abstract（参考訳）: 大規模なテキストから画像への拡散モデルは、生成画像モデリングにおけるアートの状態を著しく改善し、直感的で強力なユーザーインターフェイスにより画像生成プロセスを駆動できる。特定の場所にある特定の物体の位置など、空間的制約を表現するのにテキストを使うのは面倒で、現在のテキストベースの画像生成モデルは、その指示を正確に従えません。本稿では、直感的な自然言語インタフェースと、生成されたコンテンツの正確な空間制御を組み合わせた画像キャンバスのセグメントに関連付けられたテキストからの画像生成について考察する。 ZestGuideは、事前訓練されたテキスト-画像拡散モデルにプラグインでき、追加のトレーニングを必要としないゼロショットセグメンテーションガイダンスアプローチである。クロスアテンション層から抽出可能な暗黙のセグメンテーションマップを利用して、生成を入力マスクと整合させる。実験結果は,画像品質と入力セグメンテーションの正確なアライメントを組み合わせ,それに対応するセグメンテーションによる画像のトレーニングを必要とする手法を含む,事前作業の量的および質的な改善を図った。ゼロショットセグメンテーション条件付き画像生成技術であるPaint with Wordsと比較して,同様のFIDスコアを持つCOCOデータセット上で,5～10mIoUポイントの改善を行った。

関連論文リスト

InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。 InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2024-10-15T10:20:31Z)
Improving Compositional Text-to-image Generation with Large Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文参考訳（メタデータ） (2023-10-10T05:09:05Z)
Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文参考訳（メタデータ） (2023-08-24T17:59:01Z)
Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文参考訳（メタデータ） (2023-08-16T05:59:33Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
Variational Distribution Learning for Unsupervised Text-to-Image Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文参考訳（メタデータ） (2023-03-28T16:18:56Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)
Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文参考訳（メタデータ） (2020-11-07T13:23:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。