論文の概要: Parameter Efficient Local Implicit Image Function Network for Face
Segmentation
- arxiv url: http://arxiv.org/abs/2303.15122v1
- Date: Mon, 27 Mar 2023 11:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 15:44:03.225576
- Title: Parameter Efficient Local Implicit Image Function Network for Face
Segmentation
- Title(参考訳): 顔分割のためのパラメータ効率の良い局所インシシト画像関数ネットワーク
- Authors: Mausoom Sarkar, Nikitha SR, Mayur Hemani, Rishabh Jain, Balaji
Krishnamurthy
- Abstract要約: 顔解析は、人間の顔を含む画像のピクセルごとのラベル付けとして定義される。
我々は人間の顔の構造的整合性を利用して、軽量な顔解析法を提案する。
- 参考スコア(独自算出の注目度): 13.124513975412254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face parsing is defined as the per-pixel labeling of images containing human
faces. The labels are defined to identify key facial regions like eyes, lips,
nose, hair, etc. In this work, we make use of the structural consistency of the
human face to propose a lightweight face-parsing method using a Local Implicit
Function network, FP-LIIF. We propose a simple architecture having a
convolutional encoder and a pixel MLP decoder that uses 1/26th number of
parameters compared to the state-of-the-art models and yet matches or
outperforms state-of-the-art models on multiple datasets, like CelebAMask-HQ
and LaPa. We do not use any pretraining, and compared to other works, our
network can also generate segmentation at different resolutions without any
changes in the input resolution. This work enables the use of facial
segmentation on low-compute or low-bandwidth devices because of its higher FPS
and smaller model size.
- Abstract(参考訳): 顔解析は、人間の顔を含む画像のピクセル単位のラベリングとして定義される。
ラベルは、目、唇、鼻、髪などの重要な顔領域を特定するために定義される。
本研究では,人間の顔の構造的一貫性を利用して,局所的暗黙関数ネットワークであるfp-liifを用いた軽量な顔パシング手法を提案する。
本稿では,convolutional encoderとpixel mlpデコーダを備えた単純なアーキテクチャを提案する。これは最先端のモデルと比較して1/26分の1のパラメータを使用し,celebamask-hqやlapaといった複数のデータセットで最先端のモデルにマッチし,それを上回るものである。
事前トレーニングは一切使用せず、他の作業と比較すると、ネットワークは入力解像度を変更することなく、異なる解像度でセグメンテーションを生成することもできる。
この研究は、FPSが高く、モデルサイズが小さいため、低コンピュートまたは低バンド幅デバイスでの顔分割を可能にする。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - KeyPoint Relative Position Encoding for Face Recognition [15.65725865703615]
Keypoint RPE (KP-RPE) は、画素の重要度が近接によってのみ規定されない原理の拡張である。
コードと事前訓練されたモデルが利用可能である。
論文 参考訳(メタデータ) (2024-03-21T21:56:09Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [63.54342601757723]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Adaptive Local Implicit Image Function for Arbitrary-scale
Super-resolution [61.95533972380704]
局所暗黙画像関数(LIIF)は、対応する座標を入力として、画素値が拡張される連続関数として画像を表す。
LIIFは任意のスケールの超解像タスクに適用でき、その結果、様々なアップスケーリング要因に対して単一の効率的かつ効率的なモデルが得られる。
この問題を軽減するために,新しい適応型局所像関数(A-LIIF)を提案する。
論文 参考訳(メタデータ) (2022-08-07T11:23:23Z) - Evidential fully convolutional network for semantic segmentation [6.230751621285322]
本稿では,完全畳み込みネットワーク(fcn)と,イメージセマンティクスセグメンテーションのためのデンプスターシェーファー層からなるハイブリッドアーキテクチャを提案する。
提案手法は,多クラス集合に混乱する画素を割り当てることで,意味セグメンテーションの精度とキャリブレーションを改善することを示す。
論文 参考訳(メタデータ) (2021-03-25T01:21:22Z) - Learning Spatial Attention for Face Super-Resolution [28.60619685892613]
一般画像超解像技術は、低解像度の顔画像に適用する場合、詳細な顔構造を復元することが困難である。
近年,顔画像に適した深層学習手法は,顔解析やランドマーク予測などのタスクを共同で訓練することで,性能の向上を実現している。
顔超解像のための新たに提案した顔注意ユニット(FAUs)上に構築したSPatial Attention Residual Network(SPARNet)を紹介する。
論文 参考訳(メタデータ) (2020-12-02T13:54:25Z) - Progressive Semantic-Aware Style Transformation for Blind Face
Restoration [26.66332852514812]
顔の復元のために,PSFR-GAN という新しいプログレッシブ・セマンティック・アウェア・スタイルの変換フレームワークを提案する。
提案したPSFR-GANは、入力ペアの異なるスケールからのセマンティック(パーシングマップ)とピクセル(LQ画像)空間情報をフル活用する。
実験結果から, 合成LQ入力に対して, より現実的な高分解能な結果が得られるだけでなく, 自然なLQ顔画像の一般化にも有効であることが示唆された。
論文 参考訳(メタデータ) (2020-09-18T09:27:33Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。