Fugu-MT 論文翻訳(概要): Progressive Disentangled Representation Learning for Fine-Grained Controllable Talking Head Synthesis

論文の概要: Progressive Disentangled Representation Learning for Fine-Grained Controllable Talking Head Synthesis

arxiv url: http://arxiv.org/abs/2211.14506v1
Date: Sat, 26 Nov 2022 07:52:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 18:03:39.121429
Title: Progressive Disentangled Representation Learning for Fine-Grained Controllable Talking Head Synthesis
Title（参考訳）: 微粒化制御型トーキングヘッド合成のためのプログレッシブディスタングル表現学習
Authors: Duomin Wang, Yu Deng, Zixin Yin, Heung-Yeung Shum, Baoyuan Wang
Abstract要約: 本稿では, 口唇の動き, 視線・瞬き, 頭部ポーズ, 感情表現に対して, ゆがみ, きめ細かな制御を実現するワンショット音声頭部合成法を提案する。我々は、不整合潜在表現を介して異なる動きを表現し、画像生成器を活用して、それらから発声頭部を合成する。
参考スコア（独自算出の注目度）: 15.700918566471277
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel one-shot talking head synthesis method that achieves disentangled and fine-grained control over lip motion, eye gaze&blink, head pose, and emotional expression. We represent different motions via disentangled latent representations and leverage an image generator to synthesize talking heads from them. To effectively disentangle each motion factor, we propose a progressive disentangled representation learning strategy by separating the factors in a coarse-to-fine manner, where we first extract unified motion feature from the driving signal, and then isolate each fine-grained motion from the unified feature. We introduce motion-specific contrastive learning and regressing for non-emotional motions, and feature-level decorrelation and self-reconstruction for emotional expression, to fully utilize the inherent properties of each motion factor in unstructured video data to achieve disentanglement. Experiments show that our method provides high quality speech&lip-motion synchronization along with precise and disentangled control over multiple extra facial motions, which can hardly be achieved by previous methods.
Abstract（参考訳）: 本稿では, 唇の動き, 視線・瞬き, 頭部ポーズ, 情緒的表情のゆがみ, きめ細かな制御を実現する, ワンショット音声頭部合成法を提案する。我々は、不整合潜在表現を介して異なる動きを表現し、画像生成器を活用して音声ヘッドを合成する。そこで我々は,各運動因子を効果的に切り離すために,各運動因子を粗い方法で分離し,まず駆動信号から統一運動特徴を抽出し,さらに各微細な動きを統一特徴から分離し,プログレッシブな不整合表現学習戦略を提案する。本研究では、非感情的な動きに対する運動特異的なコントラスト学習と回帰、感情表現に対する特徴レベルのデコリレーションと自己再構成を導入し、非構造的ビデオデータにおける各モーションファクタの性質をフル活用して、ゆがみを実現する。実験の結果,従来の手法では達成できない複数の顔の動きの高精度な制御とともに,高品質な音声とリップモーションの同期を実現することができた。

関連論文リスト

X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention [52.94097577075215]
X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
論文参考訳（メタデータ） (2025-07-30T22:46:52Z)
Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation [7.362433184546492]
コンピュータビジョンとマルチモーダル人工知能の交差点における重要な研究領域として、感情的トーキー生成が出現している。本研究では,2つの課題に対処するThink-Before-Drawフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T03:33:46Z)
Controllable Expressive 3D Facial Animation via Diffusion in a Unified Multimodal Space [7.165879904419689]
本稿では,表現可能な3次元顔アニメーションのための拡散型フレームワークを提案する。本手法では,(1)FLAME中心のマルチモーダル感情結合戦略,(2)注意に基づく潜在拡散モデルを提案する。本手法は, 生理学的に妥当な顔面動態を保ちながら, 21.6%の感情類似性向上を実現している。
論文参考訳（メタデータ） (2025-04-14T01:38:01Z)
When Less Is More: A Sparse Facial Motion Structure For Listening Motion Learning [1.2974519529978974]
本研究では,長い列をスパースなリスニングと遷移フレームに符号化することで,非言語的な顔の動きを表現・予測する新しい手法を提案する。本手法は,重要な動作ステップを同定し,中間フレームを補間することにより,学習過程におけるインスタンスワイドの多様性を高めつつ,動作の時間的構造を保存する。
論文参考訳（メタデータ） (2025-04-08T07:25:12Z)
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文参考訳（メタデータ） (2025-04-07T08:56:01Z)
Audio-driven Gesture Generation via Deviation Feature in the Latent Space [2.8952735126314733]
本稿では,音声合成に適した遅延表現偏差を学習する弱教師付きフレームワークを提案する。提案手法では,より正確かつニュアンスなジェスチャー表現を実現するために,遅延動作特徴を統合する拡散モデルを用いている。実験により,本手法は映像の画質を大幅に向上させ,最先端技術を上回った。
論文参考訳（メタデータ） (2025-03-27T15:37:16Z)
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文参考訳（メタデータ） (2025-01-18T07:51:29Z)
KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。動作を別個の体節群運動に分解する動き表現を提案する。
論文参考訳（メタデータ） (2024-11-23T06:50:11Z)
ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。 AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文参考訳（メタデータ） (2024-10-12T07:01:17Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文参考訳（メタデータ） (2023-12-12T19:03:04Z)
SpeechAct: Towards Generating Whole-body Motion from Speech [33.10601371020488]
本稿では,音声から全身の動きを生成する問題に対処する。本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文参考訳（メタデータ） (2023-11-29T07:57:30Z)
Synthesizing Long-Term Human Motions with Diffusion Models via Coherent Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文参考訳（メタデータ） (2023-08-03T16:18:32Z)
Pose-Controllable 3D Facial Animation Synthesis using Hierarchical Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文参考訳（メタデータ） (2023-02-24T09:36:31Z)
Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文参考訳（メタデータ） (2020-08-24T02:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。