論文の概要: Translate the Facial Regions You Like Using Region-Wise Normalization
- arxiv url: http://arxiv.org/abs/2007.14615v1
- Date: Wed, 29 Jul 2020 05:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 20:17:52.507393
- Title: Translate the Facial Regions You Like Using Region-Wise Normalization
- Title(参考訳): 地域標準化を用いた顔面領域の翻訳
- Authors: Wenshuang Liu, Wenting Chen, Linlin Shen
- Abstract要約: 本稿では,地域レベルでの顔翻訳のための正規化フレームワークを提案する。
これにより、異なる領域の形状やテクスチャを様々なターゲットスタイルに翻訳することができる。
我々のアプローチは翻訳対象地域を正確に制御する上でさらに有利である。
- 参考スコア(独自算出の注目度): 27.288255234645472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though GAN (Generative Adversarial Networks) based technique has greatly
advanced the performance of image synthesis and face translation, only few
works available in literature provide region based style encoding and
translation. We propose in this paper a region-wise normalization framework,
for region level face translation. While per-region style is encoded using
available approach, we build a so called RIN (region-wise normalization) block
to individually inject the styles into per-region feature maps and then fuse
them for following convolution and upsampling. Both shape and texture of
different regions can thus be translated to various target styles. A region
matching loss has also been proposed to significantly reduce the inference
between regions during the translation process. Extensive experiments on three
publicly available datasets, i.e. Morph, RaFD and CelebAMask-HQ, suggest that
our approach demonstrate a large improvement over state-of-the-art methods like
StarGAN, SEAN and FUNIT. Our approach has further advantages in precise control
of the regions to be translated. As a result, region level expression changes
and step by step make up can be achieved. The video demo is available at
https://youtu.be/ceRqsbzXAfk.
- Abstract(参考訳): GAN(Generative Adversarial Networks)ベースの技術は、画像合成と顔翻訳の性能を大幅に向上させたが、地域ベースの符号化と翻訳を提供する文献は少ない。
本稿では,領域レベル顔翻訳のための領域ワイド正規化フレームワークを提案する。
リージョンごとのスタイルは利用可能なアプローチで符号化されるが、いわゆるRINブロックを構築し、リージョンごとの機能マップに個別にスタイルを注入し、畳み込みやアップサンプリングのためにそれらを融合させる。
これにより、異なる領域の形状やテクスチャを様々なターゲットスタイルに翻訳することができる。
また,翻訳過程における領域間の推論を著しく低減する領域マッチング損失も提案されている。
morph, rafd, celebamask-hqの3つの公開データセットに関する広範な実験から, stargan, sean, funitのような最先端の手法に対して,我々のアプローチは大幅に改善されていることが示唆された。
我々のアプローチは翻訳対象地域を正確に制御する上でさらに有利である。
これにより、領域レベルの表現変化とステップバイステップメイクを実現することができる。
ビデオのデモはhttps://youtu.be/cerqsbzxafkで見ることができる。
関連論文リスト
- RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection [20.630629383286262]
オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。
拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
論文 参考訳(メタデータ) (2024-05-30T09:03:23Z) - Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning [39.85737063875394]
本研究では,従来の学習手法と深層学習手法の強みを統合した,エンドツーエンドのCMFDフレームワークを開発した。
既存のディープモデルとは異なり,提案手法では,高分解能スケールから抽出した特徴を利用して,明示的で信頼性の高いポイント・ツー・ポイントマッチングを求める。
このフレームワークは、ポイント・ツー・ポイントマッチングの強い先行性を活用することで、微妙な違いを識別し、ソースとターゲットの領域を効果的に識別することができる。
論文 参考訳(メタデータ) (2024-04-26T10:38:17Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - SARA: Controllable Makeup Transfer with Spatial Alignment and Region-Adaptive Normalization [67.90315365909244]
本稿では,空間アライメントと領域適応正規化法(SARA)を提案する。
提案手法は,大規模な空間的不整合を処理し,部分特異的かつ日陰制御可能なメイク転送を実現するための詳細なメイク転送結果を生成する。
実験の結果,SARA法は既存の手法よりも優れており,2つの公開データセット上での最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-11-28T14:46:51Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T06:20:29Z) - Semantic Segmentation by Early Region Proxy [53.594035639400616]
本稿では,学習可能な領域のテッセルレーションとしてイメージを解釈することから始まる,新規で効率的なモデリングについて述べる。
領域のコンテキストをモデル化するために,Transformerを用いてシーケンス・ツー・シーケンス方式で領域を符号化する。
現在、符号化された領域埋め込みの上に、領域ごとのセマンティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-03-26T10:48:32Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Semi-supervised Synthesis of High-Resolution Editable Textures for 3D
Humans [14.098628848491147]
半教師付き構成で3次元メッシュの多彩な高忠実度テクスチャマップを生成する新しい手法を提案する。
テクスチャマップ内のセマンティクス領域のレイアウトを定義するセグメンテーションマスクを考えると、ネットワークはさまざまなスタイルで高解像度のテクスチャを生成し、レンダリング目的に使用されます。
論文 参考訳(メタデータ) (2021-03-31T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。