論文の概要: Adaptive Graph Representation Learning and Reasoning for Face Parsing
- arxiv url: http://arxiv.org/abs/2101.07034v1
- Date: Mon, 18 Jan 2021 12:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 12:25:06.078501
- Title: Adaptive Graph Representation Learning and Reasoning for Face Parsing
- Title(参考訳): 顔解析のための適応グラフ表現学習と推論
- Authors: Gusi Te, Wei Hu, Yinglu Liu, Hailin Shi, Tao Mei
- Abstract要約: 顔解析は、各顔成分にピクセルワイズラベルを推論する。
成分関係は、顔領域の曖昧な画素を識別する重要な手がかりである。
顔面成分の適応的グラフ表現学習と推論を提案する。
- 参考スコア(独自算出の注目度): 55.086151726427104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face parsing infers a pixel-wise label to each facial component, which has
drawn much attention recently. Previous methods have shown their success in
face parsing, which however overlook the correlation among facial components.
As a matter of fact, the component-wise relationship is a critical clue in
discriminating ambiguous pixels in facial area. To address this issue, we
propose adaptive graph representation learning and reasoning over facial
components, aiming to learn representative vertices that describe each
component, exploit the component-wise relationship and thereby produce accurate
parsing results against ambiguity. In particular, we devise an adaptive and
differentiable graph abstraction method to represent the components on a graph
via pixel-to-vertex projection under the initial condition of a predicted
parsing map, where pixel features within a certain facial region are aggregated
onto a vertex. Further, we explicitly incorporate the image edge as a prior in
the model, which helps to discriminate edge and non-edge pixels during the
projection, thus leading to refined parsing results along the edges. Then, our
model learns and reasons over the relations among components by propagating
information across vertices on the graph. Finally, the refined vertex features
are projected back to pixel grids for the prediction of the final parsing map.
To train our model, we propose a discriminative loss to penalize small
distances between vertices in the feature space, which leads to distinct
vertices with strong semantics. Experimental results show the superior
performance of the proposed model on multiple face parsing datasets, along with
the validation on the human parsing task to demonstrate the generalizability of
our model.
- Abstract(参考訳): 顔解析は、最近注目を集めている各顔コンポーネントにピクセル単位のラベルを推測する。
これまでは顔解析に成功していたが、顔成分間の相関を見落としている。
実際、コンポーネント間の関係は、顔領域の曖昧なピクセルを識別するための重要な手がかりである。
そこで本研究では,顔成分に対する適応的グラフ表現学習と推論を提案し,各成分を記述した代表頂点を学習し,成分関係を活用し,曖昧性に対する正確な解析結果を生成する。
特に,ある顔領域内の画素特徴が頂点に集約される予測解析マップの初期条件下で,画素対頂点投影によりグラフ上の成分を表現する適応的で微分可能なグラフ抽象化手法を考案した。
さらに,画像エッジを先行として,投影中にエッジと非エッジの画素を識別し,エッジに沿った解析結果の洗練に寄与するモデルとして,画像エッジを明示的に組み込む。
そして,グラフ上の頂点をまたいで情報を伝播することにより,コンポーネント間の関係を学習し,理由付けを行う。
最後に、改良された頂点機能は最終解析マップの予測のためにピクセルグリッドに投影される。
本モデルでは,特徴空間における頂点間の小さな距離をペナルティ化する識別的損失を提案する。
実験の結果,提案モデルが複数顔解析データセット上で優れた性能を示すとともに,人間の解析タスクの検証を行い,モデルの一般化可能性を示した。
関連論文リスト
- Entropy Neural Estimation for Graph Contrastive Learning [9.032721248598088]
グラフ上のコントラスト学習は、ノードの区別可能な高レベル表現を抽出することを目的としている。
本稿では,データセットのビュー間のペアワイズ表現を対比する,単純かつ効果的なサブセットサンプリング戦略を提案する。
7つのグラフベンチマークで広範な実験を行い、提案手法は競合性能を実現する。
論文 参考訳(メタデータ) (2023-07-26T03:55:08Z) - Pixel Relationships-based Regularizer for Retinal Vessel Image
Segmentation [4.3251090426112695]
本研究は, 正則化器を用いて, 学習プロセスに画素近傍の関係情報を付与する。
実験により,提案手法は画素近傍関係の捕捉に成功し,畳み込みニューラルネットワークの性能向上を図っている。
論文 参考訳(メタデータ) (2022-12-28T07:35:20Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Facial Geometric Detail Recovery via Implicit Representation [147.07961322377685]
そこで本研究では,一眼の顔画像のみを用いて,テクスチャガイドを用いた幾何的細部復元手法を提案する。
提案手法は,高品質なテクスチャ補完と暗黙の面の強力な表現性を組み合わせたものである。
本手法は, 顔の正確な細部を復元するだけでなく, 正常部, アルベド部, シェーディング部を自己監督的に分解する。
論文 参考訳(メタデータ) (2022-03-18T01:42:59Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Edge-aware Graph Representation Learning and Reasoning for Face Parsing [61.5045850197694]
顔解析は、最近注目されている各顔成分にピクセルワイズラベルを推論する。
従来は顔解析における効率性を示してきたが, 異なる顔領域間の相関性を見落としている。
本稿では,グラフ表現の学習による地域関係のモデル化と推論を提案する。
論文 参考訳(メタデータ) (2020-07-22T07:46:34Z) - JGR-P2O: Joint Graph Reasoning based Pixel-to-Offset Prediction Network
for 3D Hand Pose Estimation from a Single Depth Image [28.753759115780515]
最先端の単一深度画像に基づく3次元手ポーズ推定法は、密集した予測に基づいている。
上記の問題に対処するために, 画素単位の予測に基づく新しい手法を提案する。
提案モデルは2次元完全畳み込みネットワークのバックボーンで実装され,約1.4Mのパラメータしか持たない。
論文 参考訳(メタデータ) (2020-07-09T08:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。