論文の概要: Latents2Segments: Disentangling the Latent Space of Generative Models
for Semantic Segmentation of Face Images
- arxiv url: http://arxiv.org/abs/2207.01871v2
- Date: Wed, 6 Jul 2022 06:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 11:59:35.050107
- Title: Latents2Segments: Disentangling the Latent Space of Generative Models
for Semantic Segmentation of Face Images
- Title(参考訳): latents2segments:顔画像の意味セグメンテーションのための生成モデルの潜在空間の分離
- Authors: Snehal Singh Tomar and A.N. Rajagopalan
- Abstract要約: 我々は、SOTAマルチクラス顔分割モデルで必要とされる事前処理や複雑な前処理処理を廃止する。
本稿では,CelebAMask-HQおよびHELENデータセットにおけるモデルの性能について述べる。
- 参考スコア(独自算出の注目度): 29.496302682744133
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the advent of an increasing number of Augmented and Virtual Reality
applications that aim to perform meaningful and controlled style edits on
images of human faces, the impetus for the task of parsing face images to
produce accurate and fine-grained semantic segmentation maps is more than ever
before. Few State of the Art (SOTA) methods which solve this problem, do so by
incorporating priors with respect to facial structure or other face attributes
such as expression and pose in their deep classifier architecture. Our
endeavour in this work is to do away with the priors and complex pre-processing
operations required by SOTA multi-class face segmentation models by reframing
this operation as a downstream task post infusion of disentanglement with
respect to facial semantic regions of interest (ROIs) in the latent space of a
Generative Autoencoder model. We present results for our model's performance on
the CelebAMask-HQ and HELEN datasets. The encoded latent space of our model
achieves significantly higher disentanglement with respect to semantic ROIs
than that of other SOTA works. Moreover, it achieves a 13% faster inference
rate and comparable accuracy with respect to the publicly available SOTA for
the downstream task of semantic segmentation of face images.
- Abstract(参考訳): 人間の顔の画像に対して有意義で制御されたスタイル編集を行うために、拡張現実やバーチャルリアリティーのアプリケーションが増えてきているため、顔画像を解析して正確な細かなセマンティックセグメンテーションマップを作成するという作業は、これまで以上に重要になっている。
この問題を解決したSOTA(State of the Art)の手法はほとんどなく、顔の構造や表情などの顔の属性に関して事前を組み込んで、それらの深層分類器アーキテクチャでポーズする。
本研究における我々の取り組みは、生成型オートエンコーダモデルの潜在空間における顔意味領域(rois)に対する不連続の注入の下流タスクとして、この操作を再現することにより、somaマルチクラス顔セグメンテーションモデルに必要な事前および複雑な前処理操作を解消することである。
本稿では,CelebAMask-HQおよびHELENデータセットにおけるモデルの性能について述べる。
我々のモデルの符号化された潜在空間は、他のSOTAの作業よりも意味論的ROIに関してはるかに高い歪みを達成する。
さらに、顔画像のセマンティックセグメンテーションの下流タスクにおいて、一般に利用可能なSOTAに対して、13%高速な推論率と同等の精度を達成する。
関連論文リスト
- SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - EFHQ: Multi-purpose ExtremePose-Face-HQ dataset [1.8194090162317431]
この研究は、Extreme Pose Face High-Qualityデータセット(EFHQ)と呼ばれる新しいデータセットを導入し、極端なポーズで顔の最大450kの高品質な画像を含む。
このような膨大なデータセットを生成するために、我々は、新しく精巧なデータセット処理パイプラインを使用して、2つの公開データセットをキュレートする。
我々のデータセットは、顔合成と2D/3D対応のGAN、拡散ベースの顔生成、顔の再現など、さまざまな顔関連タスクに関する既存のデータセットを補完することができる。
論文 参考訳(メタデータ) (2023-12-28T18:40:31Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Empirical Study of Multi-Task Hourglass Model for Semantic Segmentation
Task [0.7614628596146599]
エッジ検出, 意味輪郭, 距離変換タスクを用いて, セマンティックセグメンテーションタスクを補完するマルチタスク手法を提案する。
本研究では,Cityscapes,CamVid,Freiburg Forestの各データセットにおける時間ガラスモデルのマルチタスク環境における学習の有効性を示す。
論文 参考訳(メタデータ) (2021-05-28T01:08:10Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。