論文の概要: Efficient conditioned face animation using frontally-viewed embedding
- arxiv url: http://arxiv.org/abs/2203.08765v1
- Date: Wed, 16 Mar 2022 17:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 15:55:26.754486
- Title: Efficient conditioned face animation using frontally-viewed embedding
- Title(参考訳): フロントビュー埋め込みを用いた効率的な条件付き顔アニメーション
- Authors: Maxime Oquab, Daniel Haziza, Ludovic Schwartz, Tao Xu, Katayoun Zand,
Rui Wang, Peirong Liu, Camille Couprie
- Abstract要約: プロファイルビューのレンダリングを改善するために、Frontalizerと呼ばれるマルチフレームの埋め込みを導入します。
さらに,顔の表情をよりよく伝達するためのランドマークとともに,世代別コード条件の学習についても検討する。
われわれのモデルは、これまでの最先端技術(知覚品質を16%以上改善し、2つのデータセットでランドマークエラーを47%以上削減する)を上回り、帯域幅の要求が極めて少ないiPhone 8でリアルタイムに実行しています。
- 参考スコア(独自算出の注目度): 16.946671480018388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the quality of few shot facial animation from landmarks increases, new
applications become possible, such as ultra low bandwidth video chat
compression with a high degree of realism. However, there are some important
challenges to tackle in order to improve the experience in real world
conditions. In particular, the current approaches fail to represent profile
views without distortions, while running in a low compute regime. We focus on
this key problem by introducing a multi-frames embedding dubbed Frontalizer to
improve profile views rendering. In addition to this core improvement, we
explore the learning of a latent code conditioning generations along with
landmarks to better convey facial expressions. Our dense models achieves 22% of
improvement in perceptual quality and 73% reduction of landmark error over the
first order model baseline on a subset of DFDC videos containing head
movements. Declined with mobile architectures, our models outperform the
previous state-of-the-art (improving perceptual quality by more than 16% and
reducing landmark error by more than 47% on two datasets) while running on real
time on iPhone 8 with very low bandwidth requirements.
- Abstract(参考訳): ランドマークから撮影される少数の顔アニメーションの品質が高まるにつれて、高いリアリズムを持つ超低帯域のビデオチャット圧縮のような新しいアプリケーションが可能になる。
しかし、現実の状況で経験を改善するために取り組むべき重要な課題がいくつかある。
特に、現在のアプローチでは、低い計算環境で動作する間、歪みのないプロファイルビューを表現できない。
我々は、プロファイルビューのレンダリングを改善するためにfrontalizerと呼ばれるマルチフレーム組込みを導入することで、この重要な問題に焦点を当てます。
この中核的な改善に加えて,潜在的なコードコンディショニング世代と,表情の伝達を改善するランドマークの学習についても検討する。
本モデルでは,頭部運動を含むDFDCビデオのサブセットを用いて,第1次モデルベースラインにおける知覚品質の22%向上とランドマーク誤差の73%低減を実現している。
モバイルアーキテクチャでは、私たちのモデルは以前の最先端(知覚品質を16%以上改善し、2つのデータセットでランドマークエラーを47%以上削減)よりも優れています。
関連論文リスト
- Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。
圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。
VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文 参考訳(メタデータ) (2024-11-25T15:14:36Z) - Analysis and Benchmarking of Extending Blind Face Image Restoration to Videos [99.42805906884499]
まず,実世界の低品質顔画像ベンチマーク(RFV-LQ)を導入し,画像に基づく顔復元アルゴリズムの評価を行った。
次に、失明顔画像復元アルゴリズムを劣化顔ビデオに拡張する際の利点と課題を網羅的に分析する。
分析では、主に顔成分の顕著なジッタとフレーム間のノイズシェープの2つの側面に分類する。
論文 参考訳(メタデータ) (2024-10-15T17:53:25Z) - High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文 参考訳(メタデータ) (2024-09-29T06:46:31Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - StableFace: Analyzing and Improving Motion Stability for Talking Face
Generation [38.25025849434312]
入力音声と出力映像をブリッジする3次元顔表現を用いた最先端パイプラインに基づく動きジッタリング問題について検討する。
音声合成ビデオでは,いくつかの問題がジッタに繋がることが判明した。
論文 参考訳(メタデータ) (2022-08-29T16:56:35Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z) - Low Bandwidth Video-Chat Compression using Deep Generative Models [19.462262379655307]
本稿では,送信者の側から抽出した顔のランドマークを用いて,受信者の端末上での顔の音響的再構成を提案する。
このアプローチでは、数kbit/秒でビデオ通話が可能で、現在利用可能な代替手段よりも桁違いに低い。
論文 参考訳(メタデータ) (2020-12-01T08:17:00Z) - A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment [21.696696531924374]
そこで本稿では,時空間情報を利用して不正確なランドマークを抑えるジッタロス関数を提案する。
提案手法は安定性評価の指標を40%以上改善する。
モデル全体をリトレーニングすることなく、素早く顔画像のランドマーク検出器を、ビデオのためのより良いパフォーマンスの検出器に変換することができる。
論文 参考訳(メタデータ) (2020-10-19T13:40:39Z) - Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior [63.11478060678794]
そこで本研究では,前もってモーションアウェアノイズを得るための効果的なモーションエキサイティングサンプリング手法を提案する。
より少ないクエリ数で様々なビデオ分類モデルを攻撃することができる。
論文 参考訳(メタデータ) (2020-03-17T10:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。