論文の概要: ControlCom: Controllable Image Composition using Diffusion Model
- arxiv url: http://arxiv.org/abs/2308.10040v1
- Date: Sat, 19 Aug 2023 14:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:07:14.073234
- Title: ControlCom: Controllable Image Composition using Diffusion Model
- Title(参考訳): ControlCom:拡散モデルを用いた制御可能な画像合成
- Authors: Bo Zhang, Yuxuan Duan, Jun Lan, Yan Hong, Huijia Zhu, Weiqiang Wang,
Li Niu
- Abstract要約: 1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。
また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。
提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
- 参考スコア(独自算出の注目度): 45.48263800282992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image composition targets at synthesizing a realistic composite image from a
pair of foreground and background images. Recently, generative composition
methods are built on large pretrained diffusion models to generate composite
images, considering their great potential in image generation. However, they
suffer from lack of controllability on foreground attributes and poor
preservation of foreground identity. To address these challenges, we propose a
controllable image composition method that unifies four tasks in one diffusion
model: image blending, image harmonization, view synthesis, and generative
composition. Meanwhile, we design a self-supervised training framework coupled
with a tailored pipeline of training data preparation. Moreover, we propose a
local enhancement module to enhance the foreground details in the diffusion
model, improving the foreground fidelity of composite images. The proposed
method is evaluated on both public benchmark and real-world data, which
demonstrates that our method can generate more faithful and controllable
composite images than existing approaches. The code and model will be available
at https://github.com/bcmi/ControlCom-Image-Composition.
- Abstract(参考訳): 画像合成は、一対の前景画像と背景画像から現実的な複合画像合成を目標とする。
近年,合成画像を生成するために,大規模な事前学習拡散モデル上に生成合成法が構築されている。
しかし, 前景属性の制御性が欠如し, 前景アイデンティティの保存が不十分であった。
これらの課題に対処するために,画像ブレンディング,画像調和,ビュー合成,生成合成の4つのタスクを1つの拡散モデルで統一する制御可能な画像合成法を提案する。
一方,自己教師付きトレーニングフレームワークと,トレーニングデータ準備のパイプラインを合わせた設計を行った。
さらに, 拡散モデルにおけるフォアグラウンド詳細度向上のための局所拡張モジュールを提案し, 複合画像のフォアグラウンド忠実度を改善した。
提案手法は,既存の手法よりも忠実で制御可能な複合画像を生成することができることを示す。
コードとモデルはhttps://github.com/bcmi/ControlCom-Image-Compositionで公開される。
関連論文リスト
- IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - DiffPop: Plausibility-Guided Object Placement Diffusion for Image Composition [13.341996441742374]
DiffPopは、複数のオブジェクトと対応するシーンイメージのスケールと空間の関係を学習するフレームワークである。
本研究では,拡散合成画像上での人間のラベル付けを生かした,ループ内人間パイプラインを開発した。
データセットとコードはリリースされます。
論文 参考訳(メタデータ) (2024-06-12T03:40:17Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。
TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。
実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文 参考訳(メタデータ) (2023-07-24T02:50:44Z) - Cross-domain Compositing with Pretrained Diffusion Models [34.98199766006208]
我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。
本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-02-20T18:54:04Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。