論文の概要: PHNet: Patch-based Normalization for Portrait Harmonization
- arxiv url: http://arxiv.org/abs/2402.17561v3
- Date: Mon, 30 Sep 2024 08:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:44.557631
- Title: PHNet: Patch-based Normalization for Portrait Harmonization
- Title(参考訳): PHNet: ポートレート調和のためのパッチベース正規化
- Authors: Karen Efremyan, Elizaveta Petrova, Evgeny Kaskov, Alexander Kapitanov,
- Abstract要約: 合成画像の一般的な問題は、前景と背景の部品の非互換性である。
本稿では,新しいパッチベース正規化ブロックと特徴抽出器からなるパッチベースの調和ネットワークを提案する。
我々のネットワークは、iHarmony4データセット上で最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License:
- Abstract: A common problem for composite images is the incompatibility of their foreground and background components. Image harmonization aims to solve this problem, making the whole image look more authentic and coherent. Most existing solutions predict lookup tables (LUTs) or reconstruct images, utilizing various attributes of composite images. Recent approaches have primarily focused on employing global transformations like normalization and color curve rendering to achieve visual consistency, and they often overlook the importance of local visual coherence. We present a patch-based harmonization network consisting of novel Patch-based normalization (PN) blocks and a feature extractor based on statistical color transfer. Extensive experiments demonstrate the network's high generalization capability for different domains. Our network achieves state-of-the-art results on the iHarmony4 dataset. Also, we created a new human portrait harmonization dataset based on FFHQ and checked the proposed method to show the generalization ability by achieving the best metrics on it. The benchmark experiments confirm that the suggested patch-based normalization block and feature extractor effectively improve the network's capability to harmonize portraits. Our code and model baselines are publicly available.
- Abstract(参考訳): 合成画像の一般的な問題は、前景と背景の部品の非互換性である。
画像調和は、この問題を解決することを目的としており、画像全体がより本物でコヒーレントに見えるようにしている。
既存のほとんどのソリューションは、複合画像の様々な属性を利用して、ルックアップテーブル(LUT)を予測または再構成する。
近年のアプローチは、視覚的一貫性を達成するために正規化や色曲線レンダリングのようなグローバルな変換を利用することに重点を置いており、しばしば局所的な視覚的一貫性の重要性を見落としている。
本稿では,Patch-based normalization(PN)ブロックと,統計カラー転送に基づく特徴抽出器からなるパッチベースの調和ネットワークを提案する。
大規模な実験は、異なるドメインに対するネットワークの高一般化能力を示す。
我々のネットワークは、iHarmony4データセット上で最先端の結果を達成する。
また,FFHQをベースとした新たな人像調和データセットを作成し,その上で最高の指標を達成して一般化能力を示すために提案手法を検証した。
ベンチマーク実験により、提案されたパッチベースの正規化ブロックと特徴抽出器は、ポートレートを調和させるネットワークの能力を効果的に向上することを確認した。
私たちのコードとモデルベースラインは公開されています。
関連論文リスト
- Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - ParaColorizer: Realistic Image Colorization using Parallel Generative
Networks [1.7778609937758327]
グレースケール画像のカラー化は、情報復元のためのAIの魅力的な応用である。
並列なGANベースのカラー化フレームワークを提案する。
マルチモーダル問題を評価するために一般的に使用される非知覚的評価指標の欠点を示す。
論文 参考訳(メタデータ) (2022-08-17T13:49:44Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Foreground-aware Semantic Representations for Image Harmonization [5.156484100374058]
本稿では,事前学習型分類ネットワークによって学習された高レベルの特徴空間を利用する新しいアーキテクチャを提案する。
既存の画像調和ベンチマークにおいて提案手法を広範に評価し,MSEとPSNRの指標から新たな最先端の手法を構築した。
論文 参考訳(メタデータ) (2020-06-01T09:27:20Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。