Fugu-MT 論文翻訳(概要): Grounding Text-To-Image Diffusion Models For Controlled High-Quality Image Generation

論文の概要: Grounding Text-To-Image Diffusion Models For Controlled High-Quality Image Generation

arxiv url: http://arxiv.org/abs/2501.09194v1
Date: Wed, 15 Jan 2025 22:55:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-17 16:36:32.103455
Title: Grounding Text-To-Image Diffusion Models For Controlled High-Quality Image Generation
Title（参考訳）: 制御された高画質画像生成のための接地テキスト・画像拡散モデル
Authors: Ahmad Süleyman, Göksel Biricik,
Abstract要約: 我々は,最先端画像生成フレームワークからインスピレーションを得るモデルであるObjectDiffusionを提案する。我々はContorlNetで導入されたネットワークアーキテクチャを改良し、GLIGENで提案されている条件処理とインジェクション技術と統合する。我々のモデルは、AP$_50$ 46.6、AR 44.5、FID 19.8を達成し、オープンソースのデータセットでトレーニングされた現在のSOTAモデルより優れている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale text-to-image (T2I) diffusion models have demonstrated an outstanding performance in synthesizing diverse high-quality visuals from natural language text captions. Multiple layout-to-image models have been developed to control the generation process by utilizing a broad array of layouts such as segmentation maps, edges, and human keypoints. In this work, we present ObjectDiffusion, a model that takes inspirations from the top cutting-edge image generative frameworks to seamlessly condition T2I models with new bounding boxes capabilities. Specifically, we make substantial modifications to the network architecture introduced in ContorlNet to integrate it with the condition processing and injection techniques proposed in GLIGEN. ObjectDiffusion is initialized with pretraining parameters to leverage the generation knowledge obtained from training on large-scale datasets. We fine-tune ObjectDiffusion on the COCO2017 training dataset and evaluate it on the COCO2017 validation dataset. Our model achieves an AP$_{50}$ of 46.6, an AR of 44.5, and a FID of 19.8 outperforming the current SOTA model trained on open-source datasets in all of the three metrics. ObjectDiffusion demonstrates a distinctive capability in synthesizing diverse, high-quality, high-fidelity images that seamlessly conform to the semantic and spatial control layout. Evaluated in qualitative and quantitative tests, ObjectDiffusion exhibits remarkable grounding abilities on closed-set and open-set settings across a wide variety of contexts. The qualitative assessment verifies the ability of ObjectDiffusion to generate multiple objects of different sizes and locations.
Abstract（参考訳）: 大規模テキスト・ツー・イメージ(T2I)拡散モデルでは、自然言語の字幕から様々な高品質な視覚を合成する際、優れた性能を示す。セグメンテーションマップやエッジ,人間のキーポイントなど,幅広いレイアウトを用いて生成プロセスを制御するために,複数のレイアウト・ツー・イメージモデルが開発されている。本研究では,トップエッジ画像生成フレームワークからインスピレーションを得て,新しいバウンディングボックス機能を備えたT2Iモデルをシームレスに条件付けするObjectDiffusionを提案する。具体的には、ContorlNetで導入されたネットワークアーキテクチャを、GLIGENで提案されている条件処理およびインジェクション技術と統合するために、大幅に変更する。 ObjectDiffusionは、大規模データセットのトレーニングから得られた生成知識を活用するために、事前トレーニングパラメータで初期化される。私たちは、COCO2017トレーニングデータセットでObjectDiffusionを微調整し、COCO2017バリデーションデータセットで評価します。我々のモデルは、AP$_{50}$ 46.6、AR 44.5、FID 19.8を達成し、3つのメトリクスのすべてにおいて、オープンソースのデータセットでトレーニングされた現在のSOTAモデルより優れています。 ObjectDiffusionは、意味的および空間的制御レイアウトにシームレスに適合する多彩で高品質で高忠実な画像を合成する際、特有な能力を示す。質的および定量的なテストで評価されたObjectDiffusionは、さまざまな状況において、クローズドセットとオープンセットの設定に顕著な基礎的能力を示す。定性的評価は、異なるサイズと位置の複数のオブジェクトを生成するObjectDiffusionの能力を検証する。

関連論文リスト

DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文参考訳（メタデータ） (2025-03-15T17:36:24Z)
ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models [21.158266387658905]
本稿では,境界ボックスに条件付き高品質な画像を生成する新しい方法であるODGENを提案する。まず, 収穫した前景オブジェクトと画像全体を対象分布に合わせるために, 事前学習した拡散モデルを微調整する。次に,空間的制約とオブジェクト指向のテキスト記述を伴って合成された視覚的ロバスト性プロンプトを用いて拡散モデルを制御することを提案する。
論文参考訳（メタデータ） (2024-05-24T04:10:34Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。 SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文参考訳（メタデータ） (2023-08-20T04:09:12Z)
GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation [91.01581867841894]
様々な幾何学的条件をテキストプロンプトに柔軟に翻訳できるシンプルなフレームワークであるGeoDiffusionを提案する。われわれのGeoDiffusionは、バウンディングボックスだけでなく、自動運転シーンのカメラビューのような余分な幾何学的条件もエンコードできる。
論文参考訳（メタデータ） (2023-06-07T17:17:58Z)
T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文参考訳（メタデータ） (2023-05-24T03:32:03Z)
Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。 M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-26T17:58:39Z)
LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文参考訳（メタデータ） (2023-03-30T06:56:12Z)
Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。 MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。 2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-12-23T14:50:40Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文参考訳（メタデータ） (2020-06-22T11:33:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。