論文の概要: Grounding Text-To-Image Diffusion Models For Controlled High-Quality Image Generation
- arxiv url: http://arxiv.org/abs/2501.09194v1
- Date: Wed, 15 Jan 2025 22:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:31.575513
- Title: Grounding Text-To-Image Diffusion Models For Controlled High-Quality Image Generation
- Title(参考訳): 制御された高画質画像生成のための接地テキスト・画像拡散モデル
- Authors: Ahmad Süleyman, Göksel Biricik,
- Abstract要約: 我々は,最先端画像生成フレームワークからインスピレーションを得るモデルであるObjectDiffusionを提案する。
我々はContorlNetで導入されたネットワークアーキテクチャを改良し、GLIGENで提案されている条件処理とインジェクション技術と統合する。
我々のモデルは、AP$_50$ 46.6、AR 44.5、FID 19.8を達成し、オープンソースのデータセットでトレーニングされた現在のSOTAモデルより優れている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large-scale text-to-image (T2I) diffusion models have demonstrated an outstanding performance in synthesizing diverse high-quality visuals from natural language text captions. Multiple layout-to-image models have been developed to control the generation process by utilizing a broad array of layouts such as segmentation maps, edges, and human keypoints. In this work, we present ObjectDiffusion, a model that takes inspirations from the top cutting-edge image generative frameworks to seamlessly condition T2I models with new bounding boxes capabilities. Specifically, we make substantial modifications to the network architecture introduced in ContorlNet to integrate it with the condition processing and injection techniques proposed in GLIGEN. ObjectDiffusion is initialized with pretraining parameters to leverage the generation knowledge obtained from training on large-scale datasets. We fine-tune ObjectDiffusion on the COCO2017 training dataset and evaluate it on the COCO2017 validation dataset. Our model achieves an AP$_{50}$ of 46.6, an AR of 44.5, and a FID of 19.8 outperforming the current SOTA model trained on open-source datasets in all of the three metrics. ObjectDiffusion demonstrates a distinctive capability in synthesizing diverse, high-quality, high-fidelity images that seamlessly conform to the semantic and spatial control layout. Evaluated in qualitative and quantitative tests, ObjectDiffusion exhibits remarkable grounding abilities on closed-set and open-set settings across a wide variety of contexts. The qualitative assessment verifies the ability of ObjectDiffusion to generate multiple objects of different sizes and locations.
- Abstract(参考訳): 大規模テキスト・ツー・イメージ(T2I)拡散モデルでは、自然言語の字幕から様々な高品質な視覚を合成する際、優れた性能を示す。
セグメンテーションマップやエッジ,人間のキーポイントなど,幅広いレイアウトを用いて生成プロセスを制御するために,複数のレイアウト・ツー・イメージモデルが開発されている。
本研究では,トップエッジ画像生成フレームワークからインスピレーションを得て,新しいバウンディングボックス機能を備えたT2Iモデルをシームレスに条件付けするObjectDiffusionを提案する。
具体的には、ContorlNetで導入されたネットワークアーキテクチャを、GLIGENで提案されている条件処理およびインジェクション技術と統合するために、大幅に変更する。
ObjectDiffusionは、大規模データセットのトレーニングから得られた生成知識を活用するために、事前トレーニングパラメータで初期化される。
私たちは、COCO2017トレーニングデータセットでObjectDiffusionを微調整し、COCO2017バリデーションデータセットで評価します。
我々のモデルは、AP$_{50}$ 46.6、AR 44.5、FID 19.8を達成し、3つのメトリクスのすべてにおいて、オープンソースのデータセットでトレーニングされた現在のSOTAモデルより優れています。
ObjectDiffusionは、意味的および空間的制御レイアウトにシームレスに適合する多彩で高品質で高忠実な画像を合成する際、特有な能力を示す。
質的および定量的なテストで評価されたObjectDiffusionは、さまざまな状況において、クローズドセットとオープンセットの設定に顕著な基礎的能力を示す。
定性的評価は、異なるサイズと位置の複数のオブジェクトを生成するObjectDiffusionの能力を検証する。
関連論文リスト
- ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models [21.158266387658905]
本稿では,境界ボックスに条件付き高品質な画像を生成する新しい方法であるODGENを提案する。
まず, 収穫した前景オブジェクトと画像全体を対象分布に合わせるために, 事前学習した拡散モデルを微調整する。
次に,空間的制約とオブジェクト指向のテキスト記述を伴って合成された視覚的ロバスト性プロンプトを用いて拡散モデルを制御することを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:10:34Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - LayoutDiffusion: Controllable Diffusion Model for Layout-to-image
Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。
本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。
実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文 参考訳(メタデータ) (2023-03-30T06:56:12Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。