論文の概要: Deep Semantic Manipulation of Facial Videos
- arxiv url: http://arxiv.org/abs/2111.07902v1
- Date: Mon, 15 Nov 2021 16:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 14:25:49.071581
- Title: Deep Semantic Manipulation of Facial Videos
- Title(参考訳): 顔映像の深い意味的操作
- Authors: Girish Kumar Solanki, Anastasios Roussos
- Abstract要約: 本稿では,ビデオにおける表情の写実的操作を行うための最初の方法を提案する。
本手法は,ニューラルレンダリングと3次元表情モデリングに基づくセマンティックビデオ操作を支援する。
提案手法は,3次元顔の形状と活動の歪んだ表現と推定に基づく。
- 参考スコア(独自算出の注目度): 5.048861360606916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing and manipulating facial features in videos is an interesting and
important field of research with a plethora of applications, ranging from movie
post-production and visual effects to realistic avatars for video games and
virtual assistants. To the best of our knowledge, this paper proposes the first
method to perform photorealistic manipulation of facial expressions in videos.
Our method supports semantic video manipulation based on neural rendering and
3D-based facial expression modelling. We focus on interactive manipulation of
the videos by altering and controlling the facial expressions, achieving
promising photorealistic results. The proposed method is based on a
disentangled representation and estimation of the 3D facial shape and activity,
providing the user with intuitive and easy-to-use control of the facial
expressions in the input video. We also introduce a user-friendly, interactive
AI tool that processes human-readable semantic labels about the desired emotion
manipulations in specific parts of the input video and synthesizes
photorealistic manipulated videos. We achieve that by mapping the emotion
labels to valence-arousal (VA) values, which in turn are mapped to disentangled
3D facial expressions through an especially designed and trained expression
decoder network. The paper presents detailed qualitative and quantitative
experiments, which demonstrate the effectiveness of our system and the
promising results it achieves. Additional results and videos can be found at
the supplementary material (https://github.com/Girish-03/DeepSemManipulation).
- Abstract(参考訳): ビデオの顔の特徴の編集と操作は、映画のポストプロダクションや視覚効果から、ビデオゲームやバーチャルアシスタントのリアルなアバターまで、多くのアプリケーションで興味深い重要な研究分野となっている。
そこで本研究では,映像における表情の写実的操作を初めて行う方法を提案する。
本手法は,ニューラルレンダリングと3次元表情モデリングに基づくセマンティックビデオ操作を支援する。
我々は,映像の対話的操作に焦点をあて,表情を変更・制御し,有望なフォトリアリスティックな結果を実現する。
提案手法は,3次元顔の形状と活動の非交叉表現と推定に基づいて,入力ビデオにおける表情の直感的かつ使いやすい制御を実現する。
また、ユーザフレンドリでインタラクティブなAIツールを導入し、入力ビデオの特定の部分における所望の感情操作に関する人間可読なセマンティックラベルを処理し、フォトリアリスティックな動画を合成する。
感情ラベルをvalence-arousal(VA)値にマッピングすることで、特に設計され、訓練された表現デコーダネットワークを介して、不整合3次元表情にマッピングする。
本稿では,本システムの有効性と有望な結果を示す,詳細な定性的・定量的実験について述べる。
追加の結果とビデオは補足資料(https://github.com/Girish-03/DeepSemManipulation)で見ることができる。
関連論文リスト
- Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - Music Recommendation Based on Facial Emotion Recognition [0.0]
本稿では,GRAD-CAMを用いた感情認識,音楽レコメンデーション,説明可能なAIの統合によるユーザエクスペリエンス向上のための包括的アプローチを提案する。
提案手法は、表情認識データセットに基づいて訓練されたResNet50モデルを用いて、様々な感情を表現している個人の実像からなる。
論文 参考訳(メタデータ) (2024-04-06T15:14:25Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting [28.012212656892746]
本稿では,ある人物の表情,頭部ポーズ,身体の動きを,対象映像の他者へ伝達するニューラルレンダリングパイプラインを提案する。
本手法は手話匿名化,手話生成(合成モジュール),および他の全身活動の再現に利用できる。
論文 参考訳(メタデータ) (2022-09-03T18:04:50Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Neural Emotion Director: Speech-preserving semantic control of facial
expressions in "in-the-wild" videos [31.746152261362777]
In-the-wild」ビデオにおいて,アクターの感情状態をリアルに操作するための新しい深層学習手法を提案する。
提案手法は,頭部のポーズや表情から顔のアイデンティティを確実に切り離すことのできる,入力シーンにおけるアクターのパラメトリックな3次元顔表現に基づく。
次に、新しいディープドメイン翻訳フレームワークを使用し、顔の表情を一貫した、そして妥当な方法で変更し、そのダイナミクスを考慮に入れます。
論文 参考訳(メタデータ) (2021-12-01T15:55:04Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z) - Real-time Facial Expression Recognition "In The Wild'' by Disentangling
3D Expression from Identity [6.974241731162878]
本稿では,1枚のRGB画像から人間の感情認識を行う新しい手法を提案する。
顔のダイナミックス、アイデンティティ、表情、外観、3Dポーズのバリエーションに富んだ大規模な顔ビデオデータセットを構築した。
提案するフレームワークは毎秒50フレームで動作し、3次元表現変動のパラメータを頑健に推定することができる。
論文 参考訳(メタデータ) (2020-05-12T01:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。