論文の概要: FreePIH: Training-Free Painterly Image Harmonization with Diffusion
Model
- arxiv url: http://arxiv.org/abs/2311.14926v1
- Date: Sat, 25 Nov 2023 04:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:42:58.991055
- Title: FreePIH: Training-Free Painterly Image Harmonization with Diffusion
Model
- Title(参考訳): FreePIH:拡散モデルによる無訓練絵画の高調波化
- Authors: Ruibin Li, Jingcai Guo, Song Guo, Qihua Zhou, Jie Zhang
- Abstract要約: 我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。
我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。
我々の手法は、代表的基準を大きなマージンで超えることができる。
- 参考スコア(独自算出の注目度): 19.170302996189335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides an efficient training-free painterly image harmonization
(PIH) method, dubbed FreePIH, that leverages only a pre-trained diffusion model
to achieve state-of-the-art harmonization results. Unlike existing methods that
require either training auxiliary networks or fine-tuning a large pre-trained
backbone, or both, to harmonize a foreground object with a painterly-style
background image, our FreePIH tames the denoising process as a plug-in module
for foreground image style transfer. Specifically, we find that the very last
few steps of the denoising (i.e., generation) process strongly correspond to
the stylistic information of images, and based on this, we propose to augment
the latent features of both the foreground and background images with Gaussians
for a direct denoising-based harmonization. To guarantee the fidelity of the
harmonized image, we make use of multi-scale features to enforce the
consistency of the content and stability of the foreground objects in the
latent space, and meanwhile, aligning both fore-/back-grounds with the same
style. Moreover, to accommodate the generation with more structural and
textural details, we further integrate text prompts to attend to the latent
features, hence improving the generation quality. Quantitative and qualitative
evaluations on COCO and LAION 5B datasets demonstrate that our method can
surpass representative baselines by large margins.
- Abstract(参考訳): 本稿では,フリーPIH(FreePIH)と呼ばれる,学習前の拡散モデルのみを活用して,最先端のハーモニゼーション結果を得る,効率的な訓練自由な画像調和手法を提案する。
補助ネットワークのトレーニングや、事前学習された大きなバックボーンの微調整を必要とする既存の方法とは異なり、このfreepihは、フォアグラウンド画像スタイル転送のためのプラグインモジュールとして、デノジン化プロセスを緩和する。
具体的には,画像のスタイリスティックな情報に対して,デノイジング(つまり生成)プロセスの最後の数ステップが強く対応していることを明らかにし,これに基づいて,前景と背景画像の両方の潜在特徴をガウス人とともに強化し,直接デノイジングに基づく調和を実現することを提案する。
調和画像の忠実性を保証するために,複数スケール特徴を用いて潜在空間における前景オブジェクトの内容の一貫性と安定性を強制すると同時に,前景と後景の両方を同一のスタイルに整合させる。
さらに,より構造的かつテクスト的詳細を持つ生成に対応するため,潜在機能に適合するテキストプロンプトをさらに統合することで,生成品質の向上を図る。
COCOおよびLAION 5Bデータセットの定量および定性評価により,本手法が代表ベースラインをはるかに超えることを示す。
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [70.58988592832684]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Progressive Painterly Image Harmonization from Low-level Styles to
High-level Styles [35.23590833646526]
絵画的画像調和は、絵の背景にある写真的前景の物体を調和させることを目的としている。
我々は、低レベルなスタイルから高レベルなスタイルに合成前景を調和させるプログレッシブ・マルチステージ調和ネットワークを開発した。
我々のネットワークは、より優れた解釈可能性と調和性能を持っている。
論文 参考訳(メタデータ) (2023-12-15T23:46:03Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Image Harmonization with Region-wise Contrastive Learning [51.309905690367835]
本稿では,外部スタイルの融合と領域単位のコントラスト学習方式を備えた新しい画像調和フレームワークを提案する。
提案手法は, 前景と背景の相互情報を最大化することにより, 対応する正と負のサンプルをまとめることを試みる。
論文 参考訳(メタデータ) (2022-05-27T15:46:55Z) - FRIH: Fine-grained Region-aware Image Harmonization [49.420765789360836]
我々は,FRIH(Fentral-Aware Image Harmonization)のための新しいグローバルな2段階フレームワークを提案する。
提案アルゴリズムは,軽量モデルを用いて,iHarmony4データセット(PSNRは38.19dB)上で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-05-13T04:50:26Z) - SCS-Co: Self-Consistent Style Contrastive Learning for Image
Harmonization [29.600429707123645]
画像調和のための自己整合型コントラスト学習方式(SCS-Co)を提案する。
複数の負のサンプルを動的に生成することにより、SCS-Coはより歪みの少ない知識を学習し、生成した調和像を適切に正規化することができる。
さらに,注目度の高い背景特徴分布を実現するために,背景アテンショナル適応型インスタンス正規化(BAIN)を提案する。
論文 参考訳(メタデータ) (2022-04-29T09:22:01Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。