論文の概要: Efficient conditioned face animation using frontally-viewed embedding
- arxiv url: http://arxiv.org/abs/2203.08765v1
- Date: Wed, 16 Mar 2022 17:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 15:55:26.754486
- Title: Efficient conditioned face animation using frontally-viewed embedding
- Title(参考訳): フロントビュー埋め込みを用いた効率的な条件付き顔アニメーション
- Authors: Maxime Oquab, Daniel Haziza, Ludovic Schwartz, Tao Xu, Katayoun Zand,
Rui Wang, Peirong Liu, Camille Couprie
- Abstract要約: プロファイルビューのレンダリングを改善するために、Frontalizerと呼ばれるマルチフレームの埋め込みを導入します。
さらに,顔の表情をよりよく伝達するためのランドマークとともに,世代別コード条件の学習についても検討する。
われわれのモデルは、これまでの最先端技術(知覚品質を16%以上改善し、2つのデータセットでランドマークエラーを47%以上削減する)を上回り、帯域幅の要求が極めて少ないiPhone 8でリアルタイムに実行しています。
- 参考スコア(独自算出の注目度): 16.946671480018388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the quality of few shot facial animation from landmarks increases, new
applications become possible, such as ultra low bandwidth video chat
compression with a high degree of realism. However, there are some important
challenges to tackle in order to improve the experience in real world
conditions. In particular, the current approaches fail to represent profile
views without distortions, while running in a low compute regime. We focus on
this key problem by introducing a multi-frames embedding dubbed Frontalizer to
improve profile views rendering. In addition to this core improvement, we
explore the learning of a latent code conditioning generations along with
landmarks to better convey facial expressions. Our dense models achieves 22% of
improvement in perceptual quality and 73% reduction of landmark error over the
first order model baseline on a subset of DFDC videos containing head
movements. Declined with mobile architectures, our models outperform the
previous state-of-the-art (improving perceptual quality by more than 16% and
reducing landmark error by more than 47% on two datasets) while running on real
time on iPhone 8 with very low bandwidth requirements.
- Abstract(参考訳): ランドマークから撮影される少数の顔アニメーションの品質が高まるにつれて、高いリアリズムを持つ超低帯域のビデオチャット圧縮のような新しいアプリケーションが可能になる。
しかし、現実の状況で経験を改善するために取り組むべき重要な課題がいくつかある。
特に、現在のアプローチでは、低い計算環境で動作する間、歪みのないプロファイルビューを表現できない。
我々は、プロファイルビューのレンダリングを改善するためにfrontalizerと呼ばれるマルチフレーム組込みを導入することで、この重要な問題に焦点を当てます。
この中核的な改善に加えて,潜在的なコードコンディショニング世代と,表情の伝達を改善するランドマークの学習についても検討する。
本モデルでは,頭部運動を含むDFDCビデオのサブセットを用いて,第1次モデルベースラインにおける知覚品質の22%向上とランドマーク誤差の73%低減を実現している。
モバイルアーキテクチャでは、私たちのモデルは以前の最先端(知覚品質を16%以上改善し、2つのデータセットでランドマークエラーを47%以上削減)よりも優れています。
関連論文リスト
- Effective Adapter for Face Recognition in the Wild [77.09252386558362]
私たちは、画像が低品質で現実世界の歪みに悩まされる、野生の顔認識の課題に取り組みます。
従来のアプローチでは、劣化した画像や、顔の復元技術を使って強化された画像を直接訓練するが、効果がないことが証明された。
高品質な顔データセットで訓練された既存の顔認識モデルを強化するための効果的なアダプタを提案する。
論文 参考訳(メタデータ) (2023-12-04T08:55:46Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Human Performance Modeling and Rendering via Neural Animated Mesh [40.25449482006199]
従来のメッシュをニューラルレンダリングの新たなクラスでブリッジします。
本稿では,映像から人間の視点をレンダリングする新しい手法を提案する。
我々は、ARヘッドセットにバーチャルヒューマンパフォーマンスを挿入して、さまざまなプラットフォーム上でのアプローチを実証する。
論文 参考訳(メタデータ) (2022-09-18T03:58:00Z) - StableFace: Analyzing and Improving Motion Stability for Talking Face
Generation [38.25025849434312]
入力音声と出力映像をブリッジする3次元顔表現を用いた最先端パイプラインに基づく動きジッタリング問題について検討する。
音声合成ビデオでは,いくつかの問題がジッタに繋がることが判明した。
論文 参考訳(メタデータ) (2022-08-29T16:56:35Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z) - Low Bandwidth Video-Chat Compression using Deep Generative Models [19.462262379655307]
本稿では,送信者の側から抽出した顔のランドマークを用いて,受信者の端末上での顔の音響的再構成を提案する。
このアプローチでは、数kbit/秒でビデオ通話が可能で、現在利用可能な代替手段よりも桁違いに低い。
論文 参考訳(メタデータ) (2020-12-01T08:17:00Z) - A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment [21.696696531924374]
そこで本稿では,時空間情報を利用して不正確なランドマークを抑えるジッタロス関数を提案する。
提案手法は安定性評価の指標を40%以上改善する。
モデル全体をリトレーニングすることなく、素早く顔画像のランドマーク検出器を、ビデオのためのより良いパフォーマンスの検出器に変換することができる。
論文 参考訳(メタデータ) (2020-10-19T13:40:39Z) - Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior [63.11478060678794]
そこで本研究では,前もってモーションアウェアノイズを得るための効果的なモーションエキサイティングサンプリング手法を提案する。
より少ないクエリ数で様々なビデオ分類モデルを攻撃することができる。
論文 参考訳(メタデータ) (2020-03-17T10:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。