論文の概要: Painterly Image Harmonization using Diffusion Model
- arxiv url: http://arxiv.org/abs/2308.02228v1
- Date: Fri, 4 Aug 2023 09:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:23:45.890013
- Title: Painterly Image Harmonization using Diffusion Model
- Title(参考訳): 拡散モデルを用いた画家画像の調和
- Authors: Lingxiao Lu, Jiangtong Li, Junyan Cao, Li Niu, and Liqing Zhang
- Abstract要約: 絵画調和安定拡散モデル(PHDiffusion)を提案する。
軽量適応エンコーダとデュアルフュージョン(DEF)モジュールを備える。
具体的には、適応エンコーダとDEFモジュールは、まず各エンコーダ内の前景機能をスタイリングする。
そして、両エンコーダのスタイリングされた前景特徴を組み合わせて調和過程を導出する。
- 参考スコア(独自算出の注目度): 17.732783922599857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Painterly image harmonization aims to insert photographic objects into
paintings and obtain artistically coherent composite images. Previous methods
for this task mainly rely on inference optimization or generative adversarial
network, but they are either very time-consuming or struggling at fine control
of the foreground objects (e.g., texture and content details). To address these
issues, we propose a novel Painterly Harmonization stable Diffusion model
(PHDiffusion), which includes a lightweight adaptive encoder and a Dual Encoder
Fusion (DEF) module. Specifically, the adaptive encoder and the DEF module
first stylize foreground features within each encoder. Then, the stylized
foreground features from both encoders are combined to guide the harmonization
process. During training, besides the noise loss in diffusion model, we
additionally employ content loss and two style losses, i.e., AdaIN style loss
and contrastive style loss, aiming to balance the trade-off between style
migration and content preservation. Compared with the state-of-the-art models
from related fields, our PHDiffusion can stylize the foreground more
sufficiently and simultaneously retain finer content. Our code and model are
available at https://github.com/bcmi/PHDiffusion-Painterly-Image-Harmonization.
- Abstract(参考訳): 絵画に写真オブジェクトを挿入し、芸術的に一貫性のある合成画像を得る。
このタスクの以前の方法は、主に推論の最適化や生成的な逆ネットワークに依存しているが、それらは非常に時間を要するか、前景のオブジェクト(例えばテクスチャやコンテンツの詳細)の細かい制御に苦労している。
これらの問題に対処するため,我々は,軽量適応エンコーダとデュアルエンコーダ融合(def)モジュールを備えた,新しい画家調和安定拡散モデル(phdiffusion)を提案する。
具体的には、適応エンコーダとDEFモジュールは、まず各エンコーダ内の前景機能をスタイリングする。
そして、両エンコーダのスタイリングされた前景特徴を組み合わせて調和過程を導出する。
トレーニング中,拡散モデルにおけるノイズ損失に加えて,コンテンツ損失とAdaINスタイルの損失とコントラストスタイルの損失という2つのスタイルの損失も採用し,スタイルマイグレーションとコンテンツ保存のトレードオフのバランスを図る。
関連分野の最先端モデルと比較して,我々のphdiffusionは前景を十分にスタイリッシュし,より細かいコンテンツを同時に保持できる。
私たちのコードとモデルはhttps://github.com/bcmi/phdiffusion-painterly-image-harmonizationで利用可能です。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - DiffMorpher: Unleashing the Capability of Diffusion Models for Image
Morphing [28.593023489682654]
DiffMorpherは、拡散モデルを用いて、スムーズで自然な画像のモーフィングを可能にする最初のアプローチである。
私たちのキーとなるアイデアは、2つのLoRAをそれぞれ組み合わせることで2つの画像の意味を捉え、LoRAパラメータと潜時ノイズの両方を補間することで、スムーズなセマンティック・トランジションを確保することです。
また,連続画像間のスムーズさをさらに高めるため,注意・注入手法と新しいサンプリングスケジュールを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:28:08Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - MagicMix: Semantic Mixing with Diffusion Models [85.43291162563652]
セマンティック・ミキシングと呼ばれる2つの異なるセマンティクスをブレンドして新しい概念を創出することを目的とした新しいタスクについて検討する。
我々は、事前訓練されたテキスト条件拡散モデルに基づく解であるMagicMixを提案する。
本手法では,空間マスクや再訓練は必要とせず,新しい物体を高忠実に合成することができる。
論文 参考訳(メタデータ) (2022-10-28T11:07:48Z) - High-Fidelity Image Inpainting with GAN Inversion [23.49170140410603]
本稿では,InvertFillと呼ばれる画像インペイントのための新しいGANインバージョンモデルを提案する。
エンコーダ内では、事前変調ネットワークがマルチスケール構造を利用して、より差別的なセマンティクスをスタイルベクトルにエンコードする。
忠実でフォトリアリスティックなイメージを再構築するために、シンプルだが効果的なSoft-update Mean Latentモジュールは、大規模な腐敗のために高忠実なテクスチャを合成する、より多様なドメイン内パターンをキャプチャするように設計されている。
論文 参考訳(メタデータ) (2022-08-25T03:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。