論文の概要: Exploring Talking Head Models With Adjacent Frame Prior for Speech-Preserving Facial Expression Manipulation
- arxiv url: http://arxiv.org/abs/2601.12876v1
- Date: Mon, 19 Jan 2026 09:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.83423
- Title: Exploring Talking Head Models With Adjacent Frame Prior for Speech-Preserving Facial Expression Manipulation
- Title(参考訳): 音声保存表情操作に先立って隣接フレームを用いた発話頭部モデルの探索
- Authors: Zhenxuan Lu, Zhihua Xu, Zhijing Yang, Feng Gao, Yongyi Lu, Keze Wang, Tianshui Chen,
- Abstract要約: 音声保存表情マニピュレーション(SPFEM)は,画像やビデオの表情変化を目的とした革新的な技術である。
進歩にもかかわらず、SPFEMは、表情と口の形の間の複雑な相互作用のために、正確な唇の同期に苦慮している。
本稿では、AD-THGモデルを用いて正確な唇の動きを同期したフレームを生成する新しいフレームワークTHFEM(Talking Head Facial Expression Manipulation)を提案する。
- 参考スコア(独自算出の注目度): 34.89590516635867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-Preserving Facial Expression Manipulation (SPFEM) is an innovative technique aimed at altering facial expressions in images and videos while retaining the original mouth movements. Despite advancements, SPFEM still struggles with accurate lip synchronization due to the complex interplay between facial expressions and mouth shapes. Capitalizing on the advanced capabilities of audio-driven talking head generation (AD-THG) models in synthesizing precise lip movements, our research introduces a novel integration of these models with SPFEM. We present a new framework, Talking Head Facial Expression Manipulation (THFEM), which utilizes AD-THG models to generate frames with accurately synchronized lip movements from audio inputs and SPFEM-altered images. However, increasing the number of frames generated by AD-THG models tends to compromise the realism and expression fidelity of the images. To counter this, we develop an adjacent frame learning strategy that finetunes AD-THG models to predict sequences of consecutive frames. This strategy enables the models to incorporate information from neighboring frames, significantly improving image quality during testing. Our extensive experimental evaluations demonstrate that this framework effectively preserves mouth shapes during expression manipulations, highlighting the substantial benefits of integrating AD-THG with SPFEM.
- Abstract(参考訳): 音声保存表情マニピュレーション (SPFEM) は, 口の動きを保ちながら画像やビデオの表情を変化させることを目的とした革新的な技術である。
進歩にもかかわらず、SPFEMは、表情と口の形の間の複雑な相互作用のために、正確な唇の同期に苦慮している。
本研究は,音声駆動音声ヘッド生成(AD-THG)モデルによる口唇運動の精密合成機能を活用し,これらのモデルとSPFEMとの新たな統合を提案する。
本稿では、AD-THGモデルを用いて音声入力とSPFEM変換画像から正確な唇の動きを同期したフレームを生成する新しいフレームワークTHFEMを提案する。
しかし、AD-THGモデルによって生成されるフレーム数が増加すると、画像のリアリズムや表現の忠実さを損なう傾向にある。
これに対応するために,AD-THGモデルを微調整して連続フレームのシーケンスを予測するフレーム学習戦略を開発した。
この戦略により、モデルは近隣のフレームからの情報を組み込むことができ、テスト中の画像品質を大幅に改善することができる。
この枠組みは, 表情操作時の口の形状を効果的に保ち, SPFEMとAD-THGの統合による実質的な利点を浮き彫りにしている。
関連論文リスト
- MAGIC-Talk: Motion-aware Audio-Driven Talking Face Generation with Customizable Identity Control [48.94486508604052]
MAGIC-Talkは、カスタマイズ可能な会話顔生成のためのワンショット拡散ベースのフレームワークである。
ReferenceNetはIDを保存し、テキストプロンプトによるきめ細かい顔の編集を可能にする。
AnimateNetは構造化された動き前処理を用いて動きコヒーレンスを向上させる。
論文 参考訳(メタデータ) (2025-10-26T19:49:31Z) - Audio-Driven Universal Gaussian Head Avatars [66.56656075831954]
本稿では,音声駆動型ユニバーサルフォトリアリスティックアバター合成法について紹介する。
個人に依存しない音声モデルと私たちの小説Universal Head Avatar Priorを組み合わせたものです。
我々の手法は、外観の詳細なモデリングとレンダリングを考慮に入れた最初の一般的なオーディオ駆動アバターモデルである。
論文 参考訳(メタデータ) (2025-09-23T12:46:43Z) - PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [48.94486508604052]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。
提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。
PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文 参考訳(メタデータ) (2024-12-10T18:51:31Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。