論文の概要: Expression-preserving face frontalization improves visually assisted
speech processing
- arxiv url: http://arxiv.org/abs/2204.02810v2
- Date: Thu, 7 Apr 2022 14:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 11:27:51.169899
- Title: Expression-preserving face frontalization improves visually assisted
speech processing
- Title(参考訳): 表情保存型顔フロントエンドは視覚支援音声処理を改善する
- Authors: Zhiqi Kang, Mostafa Sadeghi, Radu Horaud and Xavier Alameda-Pineda
- Abstract要約: 本論文の主な貢献は,非剛性顔の変形を保存したフロンダル化手法である。
深層学習パイプラインに組み込むと、音声認識と音声の不信度スコアがかなりの差で向上することを示す。
- 参考スコア(独自算出の注目度): 35.647888055229956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face frontalization consists of synthesizing a frontally-viewed face from an
arbitrarily-viewed one. The main contribution of this paper is a frontalization
methodology that preserves non-rigid facial deformations in order to boost the
performance of visually assisted speech communication. The method alternates
between the estimation of (i)~the rigid transformation (scale, rotation, and
translation) and (ii)~the non-rigid deformation between an arbitrarily-viewed
face and a face model. The method has two important merits: it can deal with
non-Gaussian errors in the data and it incorporates a dynamical face
deformation model. For that purpose, we use the generalized Student
t-distribution in combination with a linear dynamic system in order to account
for both rigid head motions and time-varying facial deformations caused by
speech production. We propose to use the zero-mean normalized cross-correlation
(ZNCC) score to evaluate the ability of the method to preserve facial
expressions. The method is thoroughly evaluated and compared with several state
of the art methods, either based on traditional geometric models or on deep
learning. Moreover, we show that the method, when incorporated into deep
learning pipelines, namely lip reading and speech enhancement, improves word
recognition and speech intelligibilty scores by a considerable margin.
Supplemental material is accessible at
https://team.inria.fr/robotlearn/research/facefrontalization-benchmark/
- Abstract(参考訳): 顔の正面化は、正面の面を任意に見る面から合成することからなる。
本論文の主な貢献は,視覚支援音声コミュニケーションの性能を高めるために,非剛性顔の変形を保存できるフロントカライズ手法である。
メソッドは、見積もりを交互に行う
(i)−剛体変換(スケール、回転、および変換)及び
(ii)~任意視面と顔モデルとの間の非剛性変形。
この手法には2つの重要な利点がある:データ中の非ガウス誤差に対処でき、動的顔変形モデルを含む。
そこで本研究では, 音声生成による頭部の剛性動きと顔の変形の両面を考慮し, 一般化された学生t分布と線形力学系を併用した。
本稿では,ゼロ平均正規化相互相関(ZNCC)スコアを用いて,表情の保存能力を評価することを提案する。
本手法は,従来の幾何学的モデルに基づく手法や深層学習に基づく手法と比較し,徹底的に評価する。
さらに,本手法を深層学習パイプライン,すなわち唇読解と音声強調に組み込むと,音声認識と音声の不信度スコアがかなりの差で向上することを示す。
補足材料はhttps://team.inria.fr/robotlearn/research/facefrontalization-benchmark/でアクセスできます。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting [21.474938045227702]
本研究では,高忠実度音声ヘッド合成のための変形型放射場フレームワークであるTalkingGaussianを紹介する。
提案手法は, 従来の方法と比較して, 顔の忠実度と効率性を向上し, 高品質な唇同期音声ヘッドビデオを生成する。
論文 参考訳(メタデータ) (2024-04-23T17:55:07Z) - eMotion-GAN: A Motion-based GAN for Photorealistic and Facial Expression Preserving Frontal View Synthesis [3.2498796510544636]
正面視合成のための新しい深層学習手法であるeMotion-GANを提案する。
頭部変動による動きをノイズとして,表情による動きを関連情報として考慮し,ノイズを除去する訓練を行った。
そして、フィルタされた動きを中性前頭面にマッピングして、対応する表現性前頭面を生成する。
論文 参考訳(メタデータ) (2024-04-15T17:08:53Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - A survey on facial image deblurring [3.6775758132528877]
顔画像がぼやけていると、顔認識などのハイレベルな視覚タスクに大きな影響を与えます。
本稿では,最近発表された顔画像の難読化手法について概説し,その大部分はディープラーニングに基づくものである。
本稿では,データセットとメトリクスにおける古典的手法の性能を示すとともに,モデルに基づく手法と学習に基づく手法の違いについて,簡単な議論を行う。
論文 参考訳(メタデータ) (2023-02-10T02:24:56Z) - Face Frontalization Based on Robustly Fitting a Deformable Shape Model
to 3D Landmarks [24.07648367866321]
顔の正面化は、任意に視認された顔から正面に視認された顔で構成される。
本論文の主な貢献は,画素対ピクセルワープを可能にする頑健な顔アライメント法である。
提案手法の重要な利点は、ノイズ(小摂動)と外乱(大誤差)の両方を扱う能力である。
論文 参考訳(メタデータ) (2020-10-26T15:52:50Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。