論文の概要: Training-and-Prompt-Free General Painterly Harmonization via Zero-Shot Disentenglement on Style and Content References
- arxiv url: http://arxiv.org/abs/2404.12900v2
- Date: Sun, 15 Dec 2024 14:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:51.660455
- Title: Training-and-Prompt-Free General Painterly Harmonization via Zero-Shot Disentenglement on Style and Content References
- Title(参考訳): ゼロショットディペンデングによる学習とプロンプトフリーの一般絵画の調和 : スタイルと内容に関する考察
- Authors: Teng-Fang Hsiao, Bo-Kai Ruan, Hong-Han Shuai,
- Abstract要約: トレーニング・アンド・プロンプトフリーの一般絵画調和法(TF-GPH)を提案する。
TF-GPHは、前景の内容と背景像を歪ませる小説『Simisity Disentangle Mask'』を取り入れている。
また,スタイル化とコンテンツ保存の調和を両立させる「類似度強調」機構を提案する。
- 参考スコア(独自算出の注目度): 20.189124622271446
- License:
- Abstract: Painterly image harmonization aims at seamlessly blending disparate visual elements within a single image. However, previous approaches often struggle due to limitations in training data or reliance on additional prompts, leading to inharmonious and content-disrupted output. To surmount these hurdles, we design a Training-and-prompt-Free General Painterly Harmonization method (TF-GPH). TF-GPH incorporates a novel ``Similarity Disentangle Mask'', which disentangles the foreground content and background image by redirecting their attention to corresponding reference images, enhancing the attention mechanism for multi-image inputs. Additionally, we propose a ``Similarity Reweighting'' mechanism to balance harmonization between stylization and content preservation. This mechanism minimizes content disruption by prioritizing the content-similar features within the given background style reference. Finally, we address the deficiencies in existing benchmarks by proposing novel range-based evaluation metrics and a new benchmark to better reflect real-world applications. Extensive experiments demonstrate the efficacy of our method in all benchmarks. More detailed in https://github.com/BlueDyee/TF-GPH.
- Abstract(参考訳): Painterly Image harmonization は、異なる視覚要素を1つの画像にシームレスにブレンドすることを目的としている。
しかし、以前のアプローチはトレーニングデータの制限や追加のプロンプトへの依存のためにしばしば苦労する。
これらのハードルを克服するために、トレーニングとプロンプトのない一般絵画調和法(TF-GPH)を設計する。
TF-GPHは「Similarity Disentangle Mask'」という小説を取り入れており、複数画像入力の注意機構を強化し、対応する参照画像に注意を向けることで、前景の内容と背景画像を歪めている。
また,スタイル化とコンテンツ保存の調和を両立させる「類似度強調」機構を提案する。
このメカニズムは、所定のバックグラウンドスタイルの参照内で、コンテンツ類似の特徴を優先順位付けすることで、コンテンツの破壊を最小限にする。
最後に,新しい範囲評価指標と実世界のアプリケーションをよりよく反映する新しいベンチマークを提案することで,既存のベンチマークの欠陥に対処する。
全てのベンチマークにおいて,本手法の有効性を示す実験を行った。
詳しくはhttps://github.com/BlueDyee/TF-GPHを参照。
関連論文リスト
- CorrFill: Enhancing Faithfulness in Reference-based Inpainting with Correspondence Guidance in Diffusion Models [21.798183378799667]
基準画像と対象画像との幾何的相関の認識を高めるために設計されたトレーニングフリーモジュールであるCorrFillを提案する。
実験の結果,CorrFillは複数のベースライン拡散法の性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-04T18:31:01Z) - Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Robust Classification by Coupling Data Mollification with Label Smoothing [25.66357344079206]
本稿では,ラベルのスムーズ化を図り,ラベルの信頼度を画像劣化と整合させることにより,画像のノイズ化とぼやけという形でデータモリフィケーションを結合する手法を提案する。
CIFARおよびTinyImageNetデータセットの劣化画像ベンチマークにおいて、ロバスト性および不確実性の向上を実証した。
論文 参考訳(メタデータ) (2024-06-03T16:21:29Z) - Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文 参考訳(メタデータ) (2023-11-30T02:33:29Z) - FreePIH: Training-Free Painterly Image Harmonization with Diffusion
Model [19.170302996189335]
我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。
我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。
我々の手法は、代表的基準を大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2023-11-25T04:23:49Z) - Image Harmonization with Region-wise Contrastive Learning [51.309905690367835]
本稿では,外部スタイルの融合と領域単位のコントラスト学習方式を備えた新しい画像調和フレームワークを提案する。
提案手法は, 前景と背景の相互情報を最大化することにより, 対応する正と負のサンプルをまとめることを試みる。
論文 参考訳(メタデータ) (2022-05-27T15:46:55Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。