論文の概要: RoI Tanh-polar Transformer Network for Face Parsing in the Wild
- arxiv url: http://arxiv.org/abs/2102.02717v1
- Date: Thu, 4 Feb 2021 16:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 23:17:30.590319
- Title: RoI Tanh-polar Transformer Network for Face Parsing in the Wild
- Title(参考訳): RoI Tanh-polar Transformer Network for Face Parsing in the Wild
- Authors: Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic
- Abstract要約: 顔解析は、画像中のターゲット顔の顔成分のピクセルワイズラベルを予測することを目的としている。
既存のアプローチは通常、前処理中に計算されたバウンディングボックスに関して、入力画像からターゲット顔を取得する。
本稿では,画像全体を顔領域とコンテキストの固定比でTanh極表現に変換するRoI Tanh極変換を提案する。
第3に、Tanh極空間とTanh-Cartesian空間の両方に畳み込み層を含むハイブリッド残差表現学習ブロック、HybridBlockを提案する。
- 参考スコア(独自算出の注目度): 50.8865921538953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face parsing aims to predict pixel-wise labels for facial components of a
target face in an image. Existing approaches usually crop the target face from
the input image with respect to a bounding box calculated during
pre-processing, and thus can only parse inner facial Regions of Interest
(RoIs). Peripheral regions like hair are ignored and nearby faces that are
partially included in the bounding box can cause distractions. Moreover, these
methods are only trained and evaluated on near-frontal portrait images and thus
their performance for in-the-wild cases were unexplored. To address these
issues, this paper makes three contributions. First, we introduce iBugMask
dataset for face parsing in the wild containing 1,000 manually annotated images
with large variations in sizes, poses, expressions and background, and
Helen-LP, a large-pose training set containing 21,866 images generated using
head pose augmentation. Second, we propose RoI Tanh-polar transform that warps
the whole image to a Tanh-polar representation with a fixed ratio between the
face area and the context, guided by the target bounding box. The new
representation contains all information in the original image, and allows for
rotation equivariance in the convolutional neural networks (CNNs). Third, we
propose a hybrid residual representation learning block, coined HybridBlock,
that contains convolutional layers in both the Tanh-polar space and the
Tanh-Cartesian space, allowing for receptive fields of different shapes in
CNNs. Through extensive experiments, we show that the proposed method
significantly improves the state-of-the-art for face parsing in the wild.
- Abstract(参考訳): 顔解析は、画像中のターゲット顔の顔成分のピクセルワイズラベルを予測することを目的としている。
既存のアプローチは通常、前処理中に計算されたバウンディングボックスに対して入力画像からターゲットの顔を取り出すため、興味の内面領域(RoIs)のみを解析できる。
髪のような周辺領域は無視され、境界ボックスに部分的に含まれている近くの顔は気晴らしを引き起こす可能性があります。
さらに、これらの手法は、正面近傍の肖像画でのみ訓練・評価され、被写体におけるその性能は未調査である。
これらの問題に対処するため,本稿では3つの貢献を行う。
まず, 顔解析のためのibugmaskデータセットを野生で導入し, 大きさ, ポーズ, 表情, 背景の多種多様な1000個の手話画像と, 頭部のポーズ増強により生成した21,866枚の画像を含む大規模訓練セットhelen-lpについて紹介する。
第2に、ターゲット境界ボックスで導かれる顔領域とコンテキストの固定比で全画像をTanh極表現に変換するRoI Tanh極変換を提案する。
新しい表現は、元の画像に全ての情報を含み、畳み込みニューラルネットワーク(CNN)における回転同値を可能にする。
第三に、タン-極空間とタン-カルテス空間の両方に畳み込み層を含み、CNNの異なる形状の受容領域を可能にするハイブリッド残留表現学習ブロックであるハイブリッドブロックを提案する。
広範な実験により,提案手法が野生の顔解析の最先端を有意に改善することを示した。
関連論文リスト
- Occlusion-Aware Deep Convolutional Neural Network via Homogeneous Tanh-transforms for Face Parsing [2.062767930320204]
顔解析は、各意味的顔成分に対して画素単位のラベルマップを推論する。
4つのタン変換からなる画像前処理のための新しい均一なタン変換を提案する。
均質なtanh-transformsに基づいて,隠蔽顔解析のためのオクルージョン対応畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T14:20:13Z) - SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation [1.7056768055368383]
本稿では,3つの視点から制限に対処するSARGANという新しい手法を提案する。
我々は対称エンコーダ・デコーダネットワークを利用して顔の特徴に複数スケールで対応した。
提案手法は最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-30T08:15:18Z) - StyO: Stylize Your Face in Only One-Shot [8.253458555695767]
本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。
このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。
上記の問題を解決するために,新しいStyOモデル,すなわち1ショットで顔をスタイリングする。
論文 参考訳(メタデータ) (2023-03-06T15:48:33Z) - Pose with Style: Detail-Preserving Pose-Guided Image Synthesis with
Conditional StyleGAN [88.62422914645066]
任意のポーズで1つの画像から人物を再レンダリングするアルゴリズムを提案する。
既存の方法では、画像の同一性や細部を保ちながら、隠蔽されたコンテンツを写実的に幻覚することはしばしば困難である。
本手法は, 定量的評価と視覚的比較の両方において, 最先端のアルゴリズムと良好に比較できることを示す。
論文 参考訳(メタデータ) (2021-09-13T17:59:33Z) - FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for
Blind Face Inpainting [77.78305705925376]
ブラインド・フェイス・インペインティング(ブラインド・フェイス・インペインティング)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。
本稿では、これらの課題に対処するために、周波数誘導変換器とTop-Down Refinement Network(FT-TDR)と呼ばれる新しい2段階ブラインドフェイス塗装法を提案する。
論文 参考訳(メタデータ) (2021-08-10T03:12:01Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Facial Manipulation Detection Based on the Color Distribution Analysis
in Edge Region [0.5735035463793008]
操作画像におけるエッジの垂直領域の色分布解析に基づく、一般化された、ロバストな顔操作検出手法を提案する。
本手法は, 各種データセットにおける合成顔画像の検出において, トレーニングに係わるか否かに関わらず, 既存の顔画像検出方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-02T08:19:35Z) - CapsField: Light Field-based Face and Expression Recognition in the Wild
using Capsule Routing [81.21490913108835]
本稿では,畳み込みニューラルネットワークに基づく新しい深層顔・表情認識ソリューションであるCapsFieldを提案する。
提案手法は,最先端技術と比較して,顔および表情認識タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-01-10T09:06:02Z) - Edge-aware Graph Representation Learning and Reasoning for Face Parsing [61.5045850197694]
顔解析は、最近注目されている各顔成分にピクセルワイズラベルを推論する。
従来は顔解析における効率性を示してきたが, 異なる顔領域間の相関性を見落としている。
本稿では,グラフ表現の学習による地域関係のモデル化と推論を提案する。
論文 参考訳(メタデータ) (2020-07-22T07:46:34Z) - Domain Embedded Multi-model Generative Adversarial Networks for
Image-based Face Inpainting [44.598234654270584]
そこで本研究では,大規模刈り取り領域で顔画像の塗布を行うためのドメイン組込み多モデル生成逆数モデルを提案する。
CelebAとCelebA-HQの両方の顔データセットに対する実験により、提案手法が最先端の性能を達成したことを示す。
論文 参考訳(メタデータ) (2020-02-05T17:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。