論文の概要: Masked Linear Regression for Learning Local Receptive Fields for Facial
Expression Synthesis
- arxiv url: http://arxiv.org/abs/2011.09104v1
- Date: Wed, 18 Nov 2020 06:04:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:21:43.125673
- Title: Masked Linear Regression for Learning Local Receptive Fields for Facial
Expression Synthesis
- Title(参考訳): 表情合成のための局所受容野学習のためのマスク線形回帰
- Authors: Nazar Khan, Arbish Akram, Arif Mahmood, Sania Ashraf, Kashif Murtaza
- Abstract要約: 本稿では,表情の局所的およびスパース的構造を利用したリッジ回帰の制約付きバージョンを提案する。
既存のアプローチとは対照的に,提案手法はより大きな画像サイズで効率的に訓練することができる。
提案アルゴリズムは、Pix2Pix, CycleGAN, StarGAN, GANimationなどの最先端のGANと比較される。
- 参考スコア(独自算出の注目度): 10.28711904929932
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Compared to facial expression recognition, expression synthesis requires a
very high-dimensional mapping. This problem exacerbates with increasing image
sizes and limits existing expression synthesis approaches to relatively small
images. We observe that facial expressions often constitute sparsely
distributed and locally correlated changes from one expression to another. By
exploiting this observation, the number of parameters in an expression
synthesis model can be significantly reduced. Therefore, we propose a
constrained version of ridge regression that exploits the local and sparse
structure of facial expressions. We consider this model as masked regression
for learning local receptive fields. In contrast to the existing approaches,
our proposed model can be efficiently trained on larger image sizes.
Experiments using three publicly available datasets demonstrate that our model
is significantly better than $\ell_0, \ell_1$ and $\ell_2$-regression, SVD
based approaches, and kernelized regression in terms of mean-squared-error,
visual quality as well as computational and spatial complexities. The reduction
in the number of parameters allows our method to generalize better even after
training on smaller datasets. The proposed algorithm is also compared with
state-of-the-art GANs including Pix2Pix, CycleGAN, StarGAN and GANimation.
These GANs produce photo-realistic results as long as the testing and the
training distributions are similar. In contrast, our results demonstrate
significant generalization of the proposed algorithm over out-of-dataset human
photographs, pencil sketches and even animal faces.
- Abstract(参考訳): 表情認識と比較して、表情合成は非常に高次元のマッピングが必要である。
この問題は画像サイズの増加によって悪化し、既存の表現合成アプローチを比較的小さな画像に制限する。
顔の表情は, 疎に分布し, 局所的に相互に相関する変化を呈することが多い。
この観測を利用して、表現合成モデルにおけるパラメータの数を著しく削減することができる。
そこで本研究では,表情の局所的およびスパース構造を利用したリッジ回帰の制約付きバージョンを提案する。
我々はこのモデルを局所受容場を学ぶためのマスキング回帰と考える。
既存のアプローチとは対照的に,提案手法はより大きな画像サイズで効率的に訓練することができる。
3つの公開データセットを用いた実験により、我々のモデルは平均二乗誤差、視覚的品質、計算および空間的複雑さの点で、$\ell_0, \ell_1$および$\ell_2$-regression、SVDベースのアプローチ、カーネル化された回帰よりもはるかに優れていることが示された。
パラメータ数の削減により、より小さなデータセットでトレーニングした後でも、より一般化できる。
提案アルゴリズムは、Pix2Pix, CycleGAN, StarGAN, GANimationなどの最先端のGANと比較される。
これらのganは、テストとトレーニング分布が似ている限り、フォトリアリスティックな結果を生み出す。
対照的に,提案アルゴリズムは,データセット外の写真や鉛筆スケッチ,さらには動物の顔よりも大幅に一般化されている。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - OFER: Occluded Face Expression Reconstruction [16.06622406877353]
OFERは,多彩で表現力に富んだ3次元顔を生成することのできる,単一画像の3次元顔再構成のための新しいアプローチである。
本稿では,予測された形状精度スコアに基づいて形状拡散ネットワークの出力をソートし,最適マッチングを選択する新しいランキング機構を提案する。
論文 参考訳(メタデータ) (2024-10-29T00:21:26Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - NODER: Image Sequence Regression Based on Neural Ordinary Differential Equations [2.711538918087856]
本稿では,ニューラル常微分方程式を利用して複雑な基礎となる力学を捉える,NODERという最適化に基づく新しいフレームワークを提案する。
本モデルでは,特に臨床状況において,予測のために数枚の画像のみを必要とする。
論文 参考訳(メタデータ) (2024-07-18T07:50:46Z) - Symbolic Expression Transformer: A Computer Vision Approach for Symbolic
Regression [9.978824294461196]
シンボリック回帰(英: Symbolic Regression、SR)は、データに最も適合する数学的表現を自動的に見つけるための回帰分析の一種である。
人間はその曲線に基づいて数学的表現を推測できるという事実に触発され、記号表現変換器(SET)を提案する。
SETは、SRのコンピュータビジョンの観点からのサンプル非依存モデルである。
論文 参考訳(メタデータ) (2022-05-24T05:35:46Z) - Adversarial Parametric Pose Prior [106.12437086990853]
我々は、SMPLパラメータを現実的なポーズを生成する値に制限する事前学習を行う。
得られた先行学習は実データ分布の多様性をカバーし、2次元キーポイントからの3次元再構成の最適化を容易にし、画像からの回帰に使用する場合のポーズ推定精度を向上することを示す。
論文 参考訳(メタデータ) (2021-12-08T10:05:32Z) - Score-Based Generative Modeling through Stochastic Differential
Equations [114.39209003111723]
複素データ分布を雑音を注入することによって既知の事前分布に変換する微分方程式を提案する。
対応する逆時間SDEは、ノイズを緩やかに除去し、先行分布をデータ分布に戻す。
スコアベース生成モデリングの進歩を活用することで、これらのスコアをニューラルネットワークで正確に推定することができる。
スコアベース生成モデルから1024×1024画像の高忠実度生成を初めて示す。
論文 参考訳(メタデータ) (2020-11-26T19:39:10Z) - Pixel-based Facial Expression Synthesis [1.7056768055368383]
本稿では,各出力画素が1つの入力画素のみを観測する,画素ベースの表情合成手法を提案する。
提案するモデルは2桁の規模で,リソース制約のあるデバイスへの展開に適している。
論文 参考訳(メタデータ) (2020-10-27T16:00:45Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。