論文の概要: Expression-preserving face frontalization improves visually assisted
speech processing
- arxiv url: http://arxiv.org/abs/2204.02810v2
- Date: Thu, 7 Apr 2022 14:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 11:27:51.169899
- Title: Expression-preserving face frontalization improves visually assisted
speech processing
- Title(参考訳): 表情保存型顔フロントエンドは視覚支援音声処理を改善する
- Authors: Zhiqi Kang, Mostafa Sadeghi, Radu Horaud and Xavier Alameda-Pineda
- Abstract要約: 本論文の主な貢献は,非剛性顔の変形を保存したフロンダル化手法である。
深層学習パイプラインに組み込むと、音声認識と音声の不信度スコアがかなりの差で向上することを示す。
- 参考スコア(独自算出の注目度): 35.647888055229956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face frontalization consists of synthesizing a frontally-viewed face from an
arbitrarily-viewed one. The main contribution of this paper is a frontalization
methodology that preserves non-rigid facial deformations in order to boost the
performance of visually assisted speech communication. The method alternates
between the estimation of (i)~the rigid transformation (scale, rotation, and
translation) and (ii)~the non-rigid deformation between an arbitrarily-viewed
face and a face model. The method has two important merits: it can deal with
non-Gaussian errors in the data and it incorporates a dynamical face
deformation model. For that purpose, we use the generalized Student
t-distribution in combination with a linear dynamic system in order to account
for both rigid head motions and time-varying facial deformations caused by
speech production. We propose to use the zero-mean normalized cross-correlation
(ZNCC) score to evaluate the ability of the method to preserve facial
expressions. The method is thoroughly evaluated and compared with several state
of the art methods, either based on traditional geometric models or on deep
learning. Moreover, we show that the method, when incorporated into deep
learning pipelines, namely lip reading and speech enhancement, improves word
recognition and speech intelligibilty scores by a considerable margin.
Supplemental material is accessible at
https://team.inria.fr/robotlearn/research/facefrontalization-benchmark/
- Abstract(参考訳): 顔の正面化は、正面の面を任意に見る面から合成することからなる。
本論文の主な貢献は,視覚支援音声コミュニケーションの性能を高めるために,非剛性顔の変形を保存できるフロントカライズ手法である。
メソッドは、見積もりを交互に行う
(i)−剛体変換(スケール、回転、および変換)及び
(ii)~任意視面と顔モデルとの間の非剛性変形。
この手法には2つの重要な利点がある:データ中の非ガウス誤差に対処でき、動的顔変形モデルを含む。
そこで本研究では, 音声生成による頭部の剛性動きと顔の変形の両面を考慮し, 一般化された学生t分布と線形力学系を併用した。
本稿では,ゼロ平均正規化相互相関(ZNCC)スコアを用いて,表情の保存能力を評価することを提案する。
本手法は,従来の幾何学的モデルに基づく手法や深層学習に基づく手法と比較し,徹底的に評価する。
さらに,本手法を深層学習パイプライン,すなわち唇読解と音声強調に組み込むと,音声認識と音声の不信度スコアがかなりの差で向上することを示す。
補足材料はhttps://team.inria.fr/robotlearn/research/facefrontalization-benchmark/でアクセスできます。
関連論文リスト
- GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using
Diffusion [0.0]
音声駆動型顔アニメーションを生成するための非決定論的ディープラーニングモデルFaceDiffuserを提案する。
提案手法は拡散法に基づいて,事前学習した大規模音声表現モデル HuBERT を用いて音声入力を符号化する。
また、ブレンドシェープに基づくリップキャラクタに基づく、新たな社内データセットも導入する。
論文 参考訳(メタデータ) (2023-09-20T13:33:00Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - MorphGANFormer: Transformer-based Face Morphing and De-Morphing [55.211984079735196]
顔変形に対するスタイルGANベースのアプローチが主要な技術である。
本稿では,顔の変形に対する変換器ベースの代替手段を提案し,その利点をStyleGANベースの方法と比較した。
論文 参考訳(メタデータ) (2023-02-18T19:09:11Z) - A survey on facial image deblurring [3.6775758132528877]
顔画像がぼやけていると、顔認識などのハイレベルな視覚タスクに大きな影響を与えます。
本稿では,最近発表された顔画像の難読化手法について概説し,その大部分はディープラーニングに基づくものである。
本稿では,データセットとメトリクスにおける古典的手法の性能を示すとともに,モデルに基づく手法と学習に基づく手法の違いについて,簡単な議論を行う。
論文 参考訳(メタデータ) (2023-02-10T02:24:56Z) - Learning Facial Representations from the Cycle-consistency of Face [23.23272327438177]
顔特徴の周期一貫性を自由監督信号として導入し、ラベルのない顔画像から顔の表情を学習する。
この学習は、顔の動きサイクルの制約とアイデンティティのサイクルの制約を重畳することによって実現される。
我々のアプローチは既存の手法と競合し、アンタングル表現に埋め込まれたリッチでユニークな情報を実証する。
論文 参考訳(メタデータ) (2021-08-07T11:30:35Z) - Face Frontalization Based on Robustly Fitting a Deformable Shape Model
to 3D Landmarks [24.07648367866321]
顔の正面化は、任意に視認された顔から正面に視認された顔で構成される。
本論文の主な貢献は,画素対ピクセルワープを可能にする頑健な顔アライメント法である。
提案手法の重要な利点は、ノイズ(小摂動)と外乱(大誤差)の両方を扱う能力である。
論文 参考訳(メタデータ) (2020-10-26T15:52:50Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。