論文の概要: Audio-visual video face hallucination with frequency supervision and
cross modality support by speech based lip reading loss
- arxiv url: http://arxiv.org/abs/2211.10883v1
- Date: Sun, 20 Nov 2022 06:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:15:21.933306
- Title: Audio-visual video face hallucination with frequency supervision and
cross modality support by speech based lip reading loss
- Title(参考訳): 音声ベースの読唇損失による周波数監視とクロスモダリティ支援を用いた視聴覚映像の幻覚
- Authors: Shailza Sharma, Abhinav Dhall, Vinay Kumar, Vivek Singh Bawa
- Abstract要約: 本稿では,VFH-GAN (VFH-GAN) を用いた新しい視覚的ビデオ・ハロシン化生成ネットワークを提案する。
このアーキテクチャは、顔構造の動きと関連する音声信号との意味的相関を利用する。
現状との視覚的比較と定量的比較は、性能と有効性に有意な改善を示す。
- 参考スコア(独自算出の注目度): 17.55876691164626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been numerous breakthroughs in face hallucination tasks.
However, the task remains rather challenging in videos in comparison to the
images due to inherent consistency issues. The presence of extra temporal
dimension in video face hallucination makes it non-trivial to learn the facial
motion through out the sequence. In order to learn these fine spatio-temporal
motion details, we propose a novel cross-modal audio-visual Video Face
Hallucination Generative Adversarial Network (VFH-GAN). The architecture
exploits the semantic correlation of between the movement of the facial
structure and the associated speech signal. Another major issue in present
video based approaches is the presence of blurriness around the key facial
regions such as mouth and lips - where spatial displacement is much higher in
comparison to other areas. The proposed approach explicitly defines a lip
reading loss to learn the fine grain motion in these facial areas. During
training, GANs have potential to fit frequencies from low to high, which leads
to miss the hard to synthesize frequencies. Therefore, to add salient frequency
features to the network we add a frequency based loss function. The visual and
the quantitative comparison with state-of-the-art shows a significant
improvement in performance and efficacy.
- Abstract(参考訳): 近年,幻覚の課題には多くのブレークスルーがある。
しかし、本質的な一貫性の問題から、動画では画像と比較してかなり難しい課題が残っている。
ビデオ顔の幻覚に余分な時間的次元が存在するため、シーケンスから顔の動きを学ぶことは自明ではない。
そこで本研究では,これら微妙な時空間運動の詳細を学習するために,VFH-GAN(Productrative Adversarial Network)を提案する。
このアーキテクチャは、顔の構造の動きと関連する音声信号との間の意味的相関を利用する。
ビデオベースのアプローチにおけるもうひとつの大きな問題は、口や唇などの重要な顔領域の周りのぼやけた部分の存在だ。
提案手法は,これらの顔面領域の微細な運動を学習するための唇読解損失を明確に定義する。
トレーニング中、GANは低い周波数から高い周波数に適合する可能性があるため、周波数の合成が困難になる。
したがって、ネットワークに有意な周波数特徴を加えるために、周波数に基づく損失関数を追加する。
現状との視覚的比較と定量的比較は、性能と有効性に有意な改善を示す。
関連論文リスト
- S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。
我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文 参考訳(メタデータ) (2024-08-18T03:59:57Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert [13.60808166889775]
口唇の動きを正確に生成するための音声駆動型3次元顔アニメーション法を提案する。
この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。
提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
論文 参考訳(メタデータ) (2024-07-01T07:39:28Z) - CorrTalk: Correlation Between Hierarchical Speech and Facial Activity
Variances for 3D Animation [12.178057082024214]
音声駆動の3D顔アニメーションは、研究の関心が高まる中で難しいクロスモーダルなタスクである。
既存のアプローチはしばしば、単一レベルの音声特徴を顔アニメーション全体に直接マッピングすることで、プロセスを単純化する。
本稿では,階層型音声特徴と顔活動の時間的相関を効果的に確立する新しいフレームワークであるCorrTalkを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:16:42Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - Stitch it in Time: GAN-Based Facial Editing of Real Videos [38.81306268180105]
本稿では,映像中の顔のセマンティックな編集を行うフレームワークを提案する。
提案手法は,有意義な顔操作を行い,高い時間的一貫性を維持し,難易度,高品質な音声ヘッドビデオに適用することができる。
論文 参考訳(メタデータ) (2022-01-20T18:48:20Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。