論文の概要: LaughTalk: Expressive 3D Talking Head Generation with Laughter
- arxiv url: http://arxiv.org/abs/2311.00994v1
- Date: Thu, 2 Nov 2023 05:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:54:02.804955
- Title: LaughTalk: Expressive 3D Talking Head Generation with Laughter
- Title(参考訳): laughtalk: 表現力のある3dトークヘッドジェネレーション
- Authors: Kim Sung-Bin, Lee Hyun, Da Hye Hong, Suekyeong Nam, Janghoon Ju,
Tae-Hyun Oh
- Abstract要約: 音声と実笑の両方を明瞭に表現できる3次元音声ヘッドを生成するための新しいタスクを提案する。
新たに収集したデータセットは、擬似アノテーションと人間検証された3DFLAMEパラメータをペアにした2D笑いビデオからなる。
本手法は,発話音声の生成と笑い信号の表現において,既存の手法と比較して好意的に機能する。
- 参考スコア(独自算出の注目度): 15.60843963655039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Laughter is a unique expression, essential to affirmative social interactions
of humans. Although current 3D talking head generation methods produce
convincing verbal articulations, they often fail to capture the vitality and
subtleties of laughter and smiles despite their importance in social context.
In this paper, we introduce a novel task to generate 3D talking heads capable
of both articulate speech and authentic laughter. Our newly curated dataset
comprises 2D laughing videos paired with pseudo-annotated and human-validated
3D FLAME parameters and vertices. Given our proposed dataset, we present a
strong baseline with a two-stage training scheme: the model first learns to
talk and then acquires the ability to express laughter. Extensive experiments
demonstrate that our method performs favorably compared to existing approaches
in both talking head generation and expressing laughter signals. We further
explore potential applications on top of our proposed method for rigging
realistic avatars.
- Abstract(参考訳): 笑いは独特な表現であり、人間の肯定的な社会的相互作用に必須である。
現在の3dトーキング・ヘッド・ジェネレーションは説得力のある口頭調音を生成するが、しばしば社会的文脈において重要であるにもかかわらず、笑いや笑顔の活力や微妙な特徴を捉えられていない。
本稿では,音声と実笑の両方を明瞭に表現できる3D音声ヘッドを生成する新しいタスクを提案する。
新たに収集したデータセットは、擬似アノテーションと人間検証された3DFLAMEパラメータと頂点を組み合わせた2D笑いビデオからなる。
提案したデータセットから、2段階のトレーニングスキームで強力なベースラインを提示する。まずモデルが話し方を学習し、次に笑いを表現する能力を取得する。
本手法は,発話音声の生成と笑い信号の表現において,既存の手法と比較して良好な性能を示す。
さらに,現実的なアバターをリグするための提案手法の応用の可能性を探る。
関連論文リスト
- EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D
Talking Face Generation [28.71632683090641]
本稿では,表情生成のための音声・視覚指導システムを提案する。
人間の音声から直接顔の動きを学習する代わりに、私たちの2段階の戦略はLLMが最初に音声情報を解釈することを含む。
この2段階のプロセスは、LLMの組み込みと組み合わせて、モデルの解釈可能性を高め、ユーザーに命令を理解する柔軟性を提供する。
論文 参考訳(メタデータ) (2024-02-25T15:51:05Z) - Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like [49.2096391012794]
ELaTEはゼロショットのTSであり、短い音声プロンプトに基づいて、あらゆる話者の自然な笑い声を生成することができる。
本研究では,条件付きフローマッチングに基づくゼロショットTSに基づくモデルを開発した。
ELaTE は従来のモデルに比べて格段に高い品質と制御性で笑い音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-02-12T02:58:10Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Laughing Matters: Introducing Laughing-Face Generation using Diffusion
Models [35.688696422879175]
そこで本研究では,静止画と笑いを含む音声クリップを用いて,リアルな笑い系列を生成する新しいモデルを提案する。
我々は、さまざまな笑いデータセットに基づいてモデルをトレーニングし、笑いのために特別に設計された評価指標を導入する。
本モデルでは,笑声生成のために再訓練された場合でも,すべての指標に対して最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2023-05-15T17:59:57Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - LaughNet: synthesizing laughter utterances from waveform silhouettes and
a single laughter example [55.10864476206503]
我々は、波形シルエットを入力として、笑いを合成するLaughNetと呼ばれるモデルを提案する。
その結果,LaughNetは笑い声を適度な品質で合成し,トレーニング例の特徴を保てることがわかった。
論文 参考訳(メタデータ) (2021-10-11T00:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。