論文の概要: ControlCom: Controllable Image Composition using Diffusion Model
- arxiv url: http://arxiv.org/abs/2308.10040v1
- Date: Sat, 19 Aug 2023 14:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:07:14.073234
- Title: ControlCom: Controllable Image Composition using Diffusion Model
- Title(参考訳): ControlCom:拡散モデルを用いた制御可能な画像合成
- Authors: Bo Zhang, Yuxuan Duan, Jun Lan, Yan Hong, Huijia Zhu, Weiqiang Wang,
Li Niu
- Abstract要約: 1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。
また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。
提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
- 参考スコア(独自算出の注目度): 45.48263800282992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image composition targets at synthesizing a realistic composite image from a
pair of foreground and background images. Recently, generative composition
methods are built on large pretrained diffusion models to generate composite
images, considering their great potential in image generation. However, they
suffer from lack of controllability on foreground attributes and poor
preservation of foreground identity. To address these challenges, we propose a
controllable image composition method that unifies four tasks in one diffusion
model: image blending, image harmonization, view synthesis, and generative
composition. Meanwhile, we design a self-supervised training framework coupled
with a tailored pipeline of training data preparation. Moreover, we propose a
local enhancement module to enhance the foreground details in the diffusion
model, improving the foreground fidelity of composite images. The proposed
method is evaluated on both public benchmark and real-world data, which
demonstrates that our method can generate more faithful and controllable
composite images than existing approaches. The code and model will be available
at https://github.com/bcmi/ControlCom-Image-Composition.
- Abstract(参考訳): 画像合成は、一対の前景画像と背景画像から現実的な複合画像合成を目標とする。
近年,合成画像を生成するために,大規模な事前学習拡散モデル上に生成合成法が構築されている。
しかし, 前景属性の制御性が欠如し, 前景アイデンティティの保存が不十分であった。
これらの課題に対処するために,画像ブレンディング,画像調和,ビュー合成,生成合成の4つのタスクを1つの拡散モデルで統一する制御可能な画像合成法を提案する。
一方,自己教師付きトレーニングフレームワークと,トレーニングデータ準備のパイプラインを合わせた設計を行った。
さらに, 拡散モデルにおけるフォアグラウンド詳細度向上のための局所拡張モジュールを提案し, 複合画像のフォアグラウンド忠実度を改善した。
提案手法は,既存の手法よりも忠実で制御可能な複合画像を生成することができることを示す。
コードとモデルはhttps://github.com/bcmi/ControlCom-Image-Compositionで公開される。
関連論文リスト
- Diffusion Model-Based Image Editing: A Survey [47.78296074510459]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Deep Image Harmonization with Learnable Augmentation [17.690945824240348]
小型データセットの照明多様性を向上し、調和性能を向上させるため、学習可能な拡張法を提案する。
SycoNetは、フォアグラウンドマスクとランダムベクトルで実画像を取り込んで、適切な色変換を学習し、この実画像のフォアグラウンドに適用して合成合成合成画像を生成する。
論文 参考訳(メタデータ) (2023-08-01T08:40:23Z) - TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。
TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。
実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文 参考訳(メタデータ) (2023-07-24T02:50:44Z) - Cross-domain Compositing with Pretrained Diffusion Models [34.98199766006208]
我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。
本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-02-20T18:54:04Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。