Fugu-MT 論文翻訳(概要): Unlocking Spatial Comprehension in Text-to-Image Diffusion Models

論文の概要: Unlocking Spatial Comprehension in Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2311.17937v1
Date: Tue, 28 Nov 2023 19:00:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 19:34:16.235521
Title: Unlocking Spatial Comprehension in Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルにおける空間的理解のアンロック
Authors: Mohammad Mahdi Derakhshani, Menglin Xia, Harkirat Behl, Cees G. M. Snoek, Victor R\"uhle
Abstract要約: CompFuserは、テキストから画像への生成モデルにおける空間的理解と属性割り当てを強化する画像生成パイプラインである。我々のパイプラインは、シーン内のオブジェクト間の空間的関係を定義する命令の解釈を可能にする。
参考スコア（独自算出の注目度）: 33.99474729408903
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose CompFuser, an image generation pipeline that enhances spatial comprehension and attribute assignment in text-to-image generative models. Our pipeline enables the interpretation of instructions defining spatial relationships between objects in a scene, such as `An image of a gray cat on the left of an orange dog', and generate corresponding images. This is especially important in order to provide more control to the user. CompFuser overcomes the limitation of existing text-to-image diffusion models by decoding the generation of multiple objects into iterative steps: first generating a single object and then editing the image by placing additional objects in their designated positions. To create training data for spatial comprehension and attribute assignment we introduce a synthetic data generation process, that leverages a frozen large language model and a frozen layout-based diffusion model for object placement. We compare our approach to strong baselines and show that our model outperforms state-of-the-art image generation models in spatial comprehension and attribute assignment, despite being 3x to 5x smaller in parameters.
Abstract（参考訳）: テキストから画像への生成モデルにおける空間的理解と属性割り当てを向上させる画像生成パイプラインCompFuserを提案する。我々のパイプラインは,「オレンジ色の犬の左にある灰色の猫の画像」のようなシーン内の物体間の空間的関係を定義する命令を解釈し,対応する画像を生成する。これは、ユーザにもっとコントロールを提供するために特に重要です。 CompFuserは、複数のオブジェクトの生成を反復的なステップにデコードすることで、既存のテキストと画像の拡散モデルの制限を克服する。空間的理解と属性割り当てのためのトレーニングデータを作成するために,凍結した大言語モデルと凍結したレイアウトに基づくオブジェクト配置の拡散モデルを利用する合成データ生成プロセスを導入する。提案手法を強いベースラインと比較し,パラメータが3倍から5倍小さいにもかかわらず,空間的理解と属性割当において最先端画像生成モデルを上回ることを示す。

関連論文リスト

SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects [20.978091381109294]
本稿では,単一画像から音声オブジェクトを生成する手法を提案する。提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-10-21T20:41:32Z)
Paint by Inpaint: Learning to Add Image Objects by Removing Them First [8.399234415641319]
我々は、画像にオブジェクトを効果的に付加して、塗布過程を逆転させる拡散モデルを訓練する。削除対象の詳細な記述と,これらの記述を多種多様な自然言語命令に変換するための大規模言語モデルを提供する。
論文参考訳（メタデータ） (2024-04-28T15:07:53Z)
Salient Object-Aware Background Generation using Text-Guided Diffusion Models [4.747826159446815]
本稿では, 安定拡散と制御ネットアーキテクチャを用いて, 健全なオブジェクト出力処理にインペイント拡散モデルを適用するモデルを提案する。提案手法は,複数のデータセットにまたがる標準的な視覚的メトリクスの劣化を伴わずに,オブジェクトの展開を平均3.6倍に削減する。
論文参考訳（メタデータ） (2024-04-15T22:13:35Z)
Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文参考訳（メタデータ） (2024-03-29T15:54:36Z)
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文参考訳（メタデータ） (2023-10-16T17:57:37Z)
ObjectComposer: Consistent Generation of Multiple Objects Without Fine-tuning [25.033615513933192]
本稿では,ユーザが指定した画像に類似した複数のオブジェクトの合成を生成するObjectComposerを紹介する。私たちのアプローチはトレーニングフリーで、既存のモデルの能力を活用しています。
論文参考訳（メタデータ） (2023-10-10T19:46:58Z)
Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。 ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文参考訳（メタデータ） (2023-06-23T19:24:48Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-07T23:49:34Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。