Fugu-MT 論文翻訳(概要): FreePIH: Training-Free Painterly Image Harmonization with Diffusion Model

論文の概要: FreePIH: Training-Free Painterly Image Harmonization with Diffusion Model

arxiv url: http://arxiv.org/abs/2311.14926v1
Date: Sat, 25 Nov 2023 04:23:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 22:42:58.991055
Title: FreePIH: Training-Free Painterly Image Harmonization with Diffusion Model
Title（参考訳）: FreePIH:拡散モデルによる無訓練絵画の高調波化
Authors: Ruibin Li, Jingcai Guo, Song Guo, Qihua Zhou, Jie Zhang
Abstract要約: 我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。我々の手法は、代表的基準を大きなマージンで超えることができる。
参考スコア（独自算出の注目度）: 19.170302996189335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper provides an efficient training-free painterly image harmonization (PIH) method, dubbed FreePIH, that leverages only a pre-trained diffusion model to achieve state-of-the-art harmonization results. Unlike existing methods that require either training auxiliary networks or fine-tuning a large pre-trained backbone, or both, to harmonize a foreground object with a painterly-style background image, our FreePIH tames the denoising process as a plug-in module for foreground image style transfer. Specifically, we find that the very last few steps of the denoising (i.e., generation) process strongly correspond to the stylistic information of images, and based on this, we propose to augment the latent features of both the foreground and background images with Gaussians for a direct denoising-based harmonization. To guarantee the fidelity of the harmonized image, we make use of multi-scale features to enforce the consistency of the content and stability of the foreground objects in the latent space, and meanwhile, aligning both fore-/back-grounds with the same style. Moreover, to accommodate the generation with more structural and textural details, we further integrate text prompts to attend to the latent features, hence improving the generation quality. Quantitative and qualitative evaluations on COCO and LAION 5B datasets demonstrate that our method can surpass representative baselines by large margins.
Abstract（参考訳）: 本稿では,フリーPIH(FreePIH)と呼ばれる,学習前の拡散モデルのみを活用して,最先端のハーモニゼーション結果を得る,効率的な訓練自由な画像調和手法を提案する。補助ネットワークのトレーニングや、事前学習された大きなバックボーンの微調整を必要とする既存の方法とは異なり、このfreepihは、フォアグラウンド画像スタイル転送のためのプラグインモジュールとして、デノジン化プロセスを緩和する。具体的には,画像のスタイリスティックな情報に対して,デノイジング(つまり生成)プロセスの最後の数ステップが強く対応していることを明らかにし,これに基づいて,前景と背景画像の両方の潜在特徴をガウス人とともに強化し,直接デノイジングに基づく調和を実現することを提案する。調和画像の忠実性を保証するために,複数スケール特徴を用いて潜在空間における前景オブジェクトの内容の一貫性と安定性を強制すると同時に,前景と後景の両方を同一のスタイルに整合させる。さらに,より構造的かつテクスト的詳細を持つ生成に対応するため,潜在機能に適合するテキストプロンプトをさらに統合することで,生成品質の向上を図る。 COCOおよびLAION 5Bデータセットの定量および定性評価により,本手法が代表ベースラインをはるかに超えることを示す。

関連論文リスト

FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process [120.91393949012014]
FreeEnhanceは、既製の画像拡散モデルを用いたコンテンツ一貫性のある画像強調のためのフレームワークである。ノイズ発生段階では、FreeEnhanceは、元の画像の高頻度パターンを保存するために、より周波数の高い領域により軽いノイズを加えるように考案されている。この段階では3つの目標特性を予測された雑音の規則化の制約として提示し,高精度で視覚的品質の高い画像の強調を行う。
論文参考訳（メタデータ） (2024-09-11T17:58:50Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文参考訳（メタデータ） (2024-04-09T09:05:23Z)
Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文参考訳（メタデータ） (2024-02-28T06:07:07Z)
Image Harmonization with Region-wise Contrastive Learning [51.309905690367835]
本稿では,外部スタイルの融合と領域単位のコントラスト学習方式を備えた新しい画像調和フレームワークを提案する。提案手法は, 前景と背景の相互情報を最大化することにより, 対応する正と負のサンプルをまとめることを試みる。
論文参考訳（メタデータ） (2022-05-27T15:46:55Z)
SCS-Co: Self-Consistent Style Contrastive Learning for Image Harmonization [29.600429707123645]
画像調和のための自己整合型コントラスト学習方式(SCS-Co)を提案する。複数の負のサンプルを動的に生成することにより、SCS-Coはより歪みの少ない知識を学習し、生成した調和像を適切に正規化することができる。さらに,注目度の高い背景特徴分布を実現するために,背景アテンショナル適応型インスタンス正規化(BAIN)を提案する。
論文参考訳（メタデータ） (2022-04-29T09:22:01Z)
SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2021-08-15T19:51:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。