論文の概要: Training-and-prompt-free General Painterly Harmonization Using Image-wise Attention Sharing
- arxiv url: http://arxiv.org/abs/2404.12900v1
- Date: Fri, 19 Apr 2024 14:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:46:18.490381
- Title: Training-and-prompt-free General Painterly Harmonization Using Image-wise Attention Sharing
- Title(参考訳): イメージワイド・アテンション・シェアリングを用いた訓練とプロンプトフリーの一般絵画の調和
- Authors: Teng-Fang Hsiao, Bo-Kai Ruan, Hong-Han Shuai,
- Abstract要約: Painterly Image Harmonizationは、異なる視覚要素を単一のコヒーレントなイメージにシームレスにブレンドすることを目的としている。
以前のアプローチでは、データ制約のトレーニング、時間を要する微調整の必要性、追加のプロンプトへの依存など、重大な制限に直面する場合が多い。
イメージワイド・アテンション・シェアリングを用いたトレーニング・アンド・プロンプトフリーの一般絵画調和手法を設計する。
- 参考スコア(独自算出の注目度): 20.189124622271446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Painterly Image Harmonization aims at seamlessly blending disparate visual elements within a single coherent image. However, previous approaches often encounter significant limitations due to training data constraints, the need for time-consuming fine-tuning, or reliance on additional prompts. To surmount these hurdles, we design a Training-and-prompt-Free General Painterly Harmonization method using image-wise attention sharing (TF-GPH), which integrates a novel "share-attention module". This module redefines the traditional self-attention mechanism by allowing for comprehensive image-wise attention, facilitating the use of a state-of-the-art pretrained latent diffusion model without the typical training data limitations. Additionally, we further introduce "similarity reweighting" mechanism enhances performance by effectively harnessing cross-image information, surpassing the capabilities of fine-tuning or prompt-based approaches. At last, we recognize the deficiencies in existing benchmarks and propose the "General Painterly Harmonization Benchmark", which employs range-based evaluation metrics to more accurately reflect real-world application. Extensive experiments demonstrate the superior efficacy of our method across various benchmarks. The code and web demo are available at https://github.com/BlueDyee/TF-GPH.
- Abstract(参考訳): Painterly Image Harmonizationは、異なる視覚要素を単一のコヒーレントなイメージにシームレスにブレンドすることを目的としている。
しかしながら、以前のアプローチでは、トレーニングデータ制約、時間を要する微調整の必要性、追加のプロンプトへの依存などにより、大きな制限が課されることが多い。
これらのハードルを克服するために、画像ワイドアテンション共有(TF-GPH)を用いたトレーニング・アンド・プロンプトフリーの一般絵画調和手法を設計し、新しい「共有アテンションモジュール」を統合した。
このモジュールは、一般的なトレーニングデータ制限を伴わずに、最先端の事前訓練された潜伏拡散モデルの使用を容易にし、包括的な画像の注目を可能にすることによって、従来の自己注意機構を再定義する。
さらに、我々は、クロスイメージ情報を効果的に活用し、微調整やプロンプトベースのアプローチの能力を超えた「類似性再重み付け」機構を導入し、性能を向上させる。
最終的に、既存のベンチマークの欠陥を認識し、実世界のアプリケーションをより正確に反映するために、レンジベースの評価指標を用いた"General Painterly Harmonization Benchmark"を提案する。
広範囲な実験により, 様々なベンチマークにおいて, 提案手法の優れた有効性を示す。
コードとWebデモはhttps://github.com/BlueDyee/TF-GPHで公開されている。
関連論文リスト
- CorrFill: Enhancing Faithfulness in Reference-based Inpainting with Correspondence Guidance in Diffusion Models [21.798183378799667]
基準画像と対象画像との幾何的相関の認識を高めるために設計されたトレーニングフリーモジュールであるCorrFillを提案する。
実験の結果,CorrFillは複数のベースライン拡散法の性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-04T18:31:01Z) - Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Robust Classification by Coupling Data Mollification with Label Smoothing [25.66357344079206]
本稿では,ラベルのスムーズ化を図り,ラベルの信頼度を画像劣化と整合させることにより,画像のノイズ化とぼやけという形でデータモリフィケーションを結合する手法を提案する。
CIFARおよびTinyImageNetデータセットの劣化画像ベンチマークにおいて、ロバスト性および不確実性の向上を実証した。
論文 参考訳(メタデータ) (2024-06-03T16:21:29Z) - Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文 参考訳(メタデータ) (2023-11-30T02:33:29Z) - FreePIH: Training-Free Painterly Image Harmonization with Diffusion
Model [19.170302996189335]
我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。
我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。
我々の手法は、代表的基準を大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2023-11-25T04:23:49Z) - Image Harmonization with Region-wise Contrastive Learning [51.309905690367835]
本稿では,外部スタイルの融合と領域単位のコントラスト学習方式を備えた新しい画像調和フレームワークを提案する。
提案手法は, 前景と背景の相互情報を最大化することにより, 対応する正と負のサンプルをまとめることを試みる。
論文 参考訳(メタデータ) (2022-05-27T15:46:55Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。