Fugu-MT 論文翻訳(概要): Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation

論文の概要: Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation

arxiv url: http://arxiv.org/abs/2501.09194v2
Date: Mon, 10 Feb 2025 18:54:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 16:44:24.725265
Title: Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation
Title（参考訳）: 制御された高画質画像生成のための接地テキスト-画像拡散モデル
Authors: Ahmad Süleyman, Göksel Biricik,
Abstract要約: テキスト・ツー・イメージ(T2I)生成拡散モデルは,テキストキャプションから多種多様な高品質な視覚を合成する際,優れた性能を示した。我々は,意味的および空間的接地情報に基づいて,T2I拡散モデルを記述するモデルであるObjectDiffusionを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image (T2I) generative diffusion models have demonstrated outstanding performance in synthesizing diverse, high-quality visuals from text captions. Several layout-to-image models have been developed to control the generation process by utilizing a wide range of layouts, such as segmentation maps, edges, and human keypoints. In this work, we propose ObjectDiffusion, a model that conditions T2I diffusion models on semantic and spatial grounding information, enabling the precise rendering and placement of desired objects in specific locations defined by bounding boxes. To achieve this, we make substantial modifications to the network architecture introduced in ControlNet to integrate it with the grounding method proposed in GLIGEN. We fine-tune ObjectDiffusion on the COCO2017 training dataset and evaluate it on the COCO2017 validation dataset. Our model improves the precision and quality of controllable image generation, achieving an AP$_{\text{50}}$ of 46.6, an AR of 44.5, and an FID of 19.8, outperforming the current SOTA model trained on open-source datasets across all three metrics. ObjectDiffusion demonstrates a distinctive capability in synthesizing diverse, high-quality, high-fidelity images that seamlessly conform to the semantic and spatial control layout. Evaluated in qualitative and quantitative tests, ObjectDiffusion exhibits remarkable grounding capabilities in closed-set and open-set vocabulary settings across a wide variety of contexts. The qualitative assessment verifies the ability of ObjectDiffusion to generate multiple detailed objects in varying sizes, forms, and locations.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成拡散モデルは,テキストキャプションから多種多様な高品質な視覚を合成する際,優れた性能を示した。セグメンテーションマップやエッジ,人間のキーポイントなど,幅広いレイアウトを活用して生成プロセスを制御するために,いくつかのレイアウト・ツー・イメージモデルが開発されている。本研究では,意味的および空間的接地情報に基づいてT2I拡散モデルを記述するモデルであるObjectDiffusionを提案する。そこで我々は,制御ネットで導入されたネットワークアーキテクチャを改良し,GLIGENで提案された基盤手法と統合する。私たちは、COCO2017トレーニングデータセットでObjectDiffusionを微調整し、COCO2017バリデーションデータセットで評価します。我々のモデルは、制御可能な画像生成の精度と品質を改善し、AP$_{\text{50}}$ 46.6、AR 44.5、FID 19.8を達成し、3つのメトリクスをまたいだオープンソースのデータセットでトレーニングされた現在のSOTAモデルより優れている。 ObjectDiffusionは、意味的および空間的制御レイアウトにシームレスに適合する多彩で高品質で高忠実な画像を合成する際、特有な能力を示す。質的および定量的なテストで評価されたObjectDiffusionは、様々な状況において、クローズドセットとオープンセットの語彙設定において顕著な基礎機能を示す。定性的評価は、さまざまなサイズ、形式、位置で複数の詳細オブジェクトを生成するObjectDiffusionの能力を検証する。

関連論文リスト

STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文参考訳（メタデータ） (2025-03-15T17:36:24Z)
ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models [21.158266387658905]
本稿では,境界ボックスに条件付き高品質な画像を生成する新しい方法であるODGENを提案する。まず, 収穫した前景オブジェクトと画像全体を対象分布に合わせるために, 事前学習した拡散モデルを微調整する。次に,空間的制約とオブジェクト指向のテキスト記述を伴って合成された視覚的ロバスト性プロンプトを用いて拡散モデルを制御することを提案する。
論文参考訳（メタデータ） (2024-05-24T04:10:34Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。 SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文参考訳（メタデータ） (2023-08-20T04:09:12Z)
GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation [91.01581867841894]
様々な幾何学的条件をテキストプロンプトに柔軟に翻訳できるシンプルなフレームワークであるGeoDiffusionを提案する。われわれのGeoDiffusionは、バウンディングボックスだけでなく、自動運転シーンのカメラビューのような余分な幾何学的条件もエンコードできる。
論文参考訳（メタデータ） (2023-06-07T17:17:58Z)
T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文参考訳（メタデータ） (2023-05-24T03:32:03Z)
Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。 M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-26T17:58:39Z)
LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文参考訳（メタデータ） (2023-03-30T06:56:12Z)
Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。 MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。 2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-12-23T14:50:40Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文参考訳（メタデータ） (2020-06-22T11:33:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。