論文の概要: Joint Co-Speech Gesture and Expressive Talking Face Generation using Diffusion with Adapters
- arxiv url: http://arxiv.org/abs/2412.14333v1
- Date: Wed, 18 Dec 2024 21:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:35.257620
- Title: Joint Co-Speech Gesture and Expressive Talking Face Generation using Diffusion with Adapters
- Title(参考訳): 適応器による拡散を用いた共同音声合成と表現型発話顔生成
- Authors: Steven Hogue, Chenxu Zhang, Yapeng Tian, Xiaohu Guo,
- Abstract要約: 一つのネットワーク内での顔と体の動きを協調的に生成する新しいモデルアーキテクチャを提案する。
実験により,提案フレームワークは,最先端の音声合成と対話音声生成性能を維持できるだけでなく,必要なパラメータ数を大幅に削減できることを示した。
- 参考スコア(独自算出の注目度): 29.785749048315616
- License:
- Abstract: Recent advances in co-speech gesture and talking head generation have been impressive, yet most methods focus on only one of the two tasks. Those that attempt to generate both often rely on separate models or network modules, increasing training complexity and ignoring the inherent relationship between face and body movements. To address the challenges, in this paper, we propose a novel model architecture that jointly generates face and body motions within a single network. This approach leverages shared weights between modalities, facilitated by adapters that enable adaptation to a common latent space. Our experiments demonstrate that the proposed framework not only maintains state-of-the-art co-speech gesture and talking head generation performance but also significantly reduces the number of parameters required.
- Abstract(参考訳): 最近の音声合成と音声合成の進歩は印象的だが、ほとんどの手法は2つの課題のうちの1つにのみ焦点を当てている。
両方を生成しようとする人は、しばしば別々のモデルやネットワークモジュールに依存し、トレーニングの複雑さを増し、顔と体の動きに固有の関係を無視します。
本稿では,一つのネットワーク内での顔と体の動きを協調的に生成する新しいモデルアーキテクチャを提案する。
このアプローチは、共通潜在空間への適応を可能にするアダプタによって促進されるモジュラリティ間の共有重みを利用する。
実験により,提案フレームワークは,最先端の音声合成と対話音声生成性能を維持できるだけでなく,必要なパラメータ数を大幅に削減できることを示した。
関連論文リスト
- PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [34.43272121705662]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。
提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。
PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文 参考訳(メタデータ) (2024-12-10T18:51:31Z) - Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons [16.52004713662265]
本稿では,異なる骨格を持つ複数のジェスチャーデータセットに基づいて学習した,拡散モデルに基づく音声駆動ジェスチャー合成手法を提案する。
次に、局所的注意と自己注意を用いた拡散モデルアーキテクチャに基づいて、音声とジェスチャーの相関関係を抽出する。
実験により、UnifiedGestureは、CCA、FGD、人間類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-13T16:07:25Z) - EMoG: Synthesizing Emotive Co-speech 3D Gesture with Diffusion Model [27.159893117780577]
主な課題は,1) 音声内容とジェスチャーの1対多性,2) 身体関節間の相関モデルである。
本稿では,拡散モデルをデノナイズする上で,上記の課題に対処するための新しいフレームワーク(EMoG)を提案する。
提案手法は従来の手法を超越し,ジェスチャ合成においてかなり優れている。
論文 参考訳(メタデータ) (2023-06-20T12:32:47Z) - MetaPortrait: Identity-Preserving Talking Head Generation with Fast
Personalized Adaptation [57.060828009199646]
本稿では,ID保存型音声ヘッド生成フレームワークを提案する。
密集したランドマークは、正確な幾何認識フローフィールドを達成するために不可欠であると主張する。
我々は、合成中にソースアイデンティティを適応的に融合させ、画像ポートレートのキー特性をよりよく保存する。
論文 参考訳(メタデータ) (2022-12-15T18:59:33Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。