論文の概要: JOLT3D: Joint Learning of Talking Heads and 3DMM Parameters with Application to Lip-Sync
- arxiv url: http://arxiv.org/abs/2507.20452v1
- Date: Mon, 28 Jul 2025 01:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.760876
- Title: JOLT3D: Joint Learning of Talking Heads and 3DMM Parameters with Application to Lip-Sync
- Title(参考訳): JOLT3D: 音声頭と3DMMパラメータの同時学習とリップシンクへの応用
- Authors: Sungjoon Park, Minsik Park, Haneol Lee, Jaesub Yun, Donggeon Lee,
- Abstract要約: 本研究では,3次元顔再構成モデルと音声頭部合成モデルとの併用学習により,音声頭部合成における3DMMの有効性を再考する。
音声頭部合成に最適化された表情のFACSに基づくブレンドシェープ表現を得る。
そこで本研究では,従来の方法とは違って,従来のあごの輪郭をリップシンクしたあごの輪郭から切り離す新しいリップシンクパイプラインを提案する。
- 参考スコア(独自算出の注目度): 2.114946314333215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we revisit the effectiveness of 3DMM for talking head synthesis by jointly learning a 3D face reconstruction model and a talking head synthesis model. This enables us to obtain a FACS-based blendshape representation of facial expressions that is optimized for talking head synthesis. This contrasts with previous methods that either fit 3DMM parameters to 2D landmarks or rely on pretrained face reconstruction models. Not only does our approach increase the quality of the generated face, but it also allows us to take advantage of the blendshape representation to modify just the mouth region for the purpose of audio-based lip-sync. To this end, we propose a novel lip-sync pipeline that, unlike previous methods, decouples the original chin contour from the lip-synced chin contour, and reduces flickering near the mouth.
- Abstract(参考訳): 本研究では,3次元顔再構成モデルと音声頭部合成モデルとを共同学習することにより,音声頭部合成における3DMMの有効性を再考する。
これにより、音声頭部合成に最適化された表情のFACSに基づくブレンドシェープ表現が得られる。
これは従来の3DMMパラメータを2Dランドマークに適合させたり、事前訓練された顔再構成モデルに依存する手法とは対照的である。
提案手法は, 顔の質を向上するだけでなく, ブレンドシェープ表現の活用により, 口域のみを修正し, 音声ベースのリップシンクを実現する。
そこで本研究では, 従来の方法と異なり, 元のあごの輪郭をリップシンクしたあごの輪郭から切り離し, 口近傍のフリッカリングを低減できる新しいリップシンクパイプラインを提案する。
関連論文リスト
- OT-Talk: Animating 3D Talking Head with Optimal Transportation [20.023346831300373]
OT-Talkは、音声ヘッドアニメーションの学習モデルを最適化するために最適なトランスポートを利用する最初のアプローチである。
既存の学習フレームワークに基づいて,事前学習したHubertモデルを用いて音声特徴を抽出し,変換器モデルを用いて時間的シーケンスを処理する。
2つの公開オーディオ・メシュ・データセットに対する実験により,本手法が最先端技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-03T21:49:23Z) - FaceLift: Single Image to 3D Head with View Generation and GS-LRM [54.24070918942727]
FaceLiftは、1枚の画像から高速で高品質な360度頭部再構築のためのフィードフォワード方式である。
FaceLiftは3次元頭部再構成において最先端の手法よりも優れており、実世界の画像に対する実用性とロバストな性能を強調している。
論文 参考訳(メタデータ) (2024-12-23T18:59:49Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - A Novel Speech-Driven Lip-Sync Model with CNN and LSTM [12.747541089354538]
可変長音声入力から3次元テンプレート顔モデルの変位を生成するために,一次元畳み込みとLSTMを組み合わせたディープニューラルネットワークを提案する。
異なる音声信号に対するネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用して音声特徴を抽出する。
本モデルでは, 音声に同期したスムーズで自然な唇の動きを生成できることが示されている。
論文 参考訳(メタデータ) (2022-05-02T13:57:50Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z) - Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face
Reconstruction [76.1612334630256]
我々は、GAN(Generative Adversarial Networks)とDCNN(Deep Convolutional Neural Networks)の力を利用して、単一画像から顔のテクスチャと形状を再構築する。
3次元顔再構成を保存したフォトリアリスティックでアイデンティティに優れた結果を示し, 初めて, 高精度な顔テクスチャ再構成を実現する。
論文 参考訳(メタデータ) (2021-05-16T16:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。