論文の概要: Laughing Matters: Introducing Laughing-Face Generation using Diffusion
Models
- arxiv url: http://arxiv.org/abs/2305.08854v1
- Date: Mon, 15 May 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:19:48.944875
- Title: Laughing Matters: Introducing Laughing-Face Generation using Diffusion
Models
- Title(参考訳): Laughing Matters:拡散モデルを用いたLaughing-Face Generationの導入
- Authors: Antoni Bigata Casademunt, Rodrigo Mira, Nikita Drobyshev, Konstantinos
Vougioukas, Stavros Petridis, Maja Pantic
- Abstract要約: そこで本研究では,静止画と笑いを含む音声クリップを用いて,リアルな笑い系列を生成する新しいモデルを提案する。
我々は、さまざまな笑いデータセットに基づいてモデルをトレーニングし、笑いのために特別に設計された評価指標を導入する。
本モデルでは,笑声生成のために再訓練された場合でも,すべての指標に対して最先端のパフォーマンスが達成される。
- 参考スコア(独自算出の注目度): 51.95099650118994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven animation has gained significant traction in recent years, with
current methods achieving near-photorealistic results. However, the field
remains underexplored regarding non-verbal communication despite evidence
demonstrating its importance in human interaction. In particular, generating
laughter sequences presents a unique challenge due to the intricacy and nuances
of this behaviour. This paper aims to bridge this gap by proposing a novel
model capable of generating realistic laughter sequences, given a still
portrait and an audio clip containing laughter. We highlight the failure cases
of traditional facial animation methods and leverage recent advances in
diffusion models to produce convincing laughter videos. We train our model on a
diverse set of laughter datasets and introduce an evaluation metric
specifically designed for laughter. When compared with previous speech-driven
approaches, our model achieves state-of-the-art performance across all metrics,
even when these are re-trained for laughter generation.
- Abstract(参考訳): 音声駆動アニメーションは近年、フォトリアリスティックに近い結果が得られ、大きな注目を集めている。
しかしながら、この分野は人間の相互作用における重要性を示す証拠があるにもかかわらず、非言語コミュニケーションに関して未調査のままである。
特に、笑いの列を生成することは、この行動の複雑さとニュアンスのために、ユニークな挑戦となる。
本稿では,このギャップを埋めるために,静止画と笑いを含む音声クリップを付与し,現実的な笑いシーケンスを生成できる新しいモデルを提案する。
従来の顔アニメーション手法の失敗事例を強調し,近年の拡散モデルを利用して説得力のある笑いビデオを生成する。
さまざまな笑いデータセットでモデルをトレーニングし、笑い用に特別に設計された評価基準を導入します。
従来の音声駆動手法と比較すると,笑声生成のために再訓練された場合でも,すべての指標の最先端性能が得られた。
関連論文リスト
- EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [18.364859748601887]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。
本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文 参考訳(メタデータ) (2024-02-27T13:10:11Z) - Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like [49.2096391012794]
ELaTEはゼロショットのTSであり、短い音声プロンプトに基づいて、あらゆる話者の自然な笑い声を生成することができる。
本研究では,条件付きフローマッチングに基づくゼロショットTSに基づくモデルを開発した。
ELaTE は従来のモデルに比べて格段に高い品質と制御性で笑い音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-02-12T02:58:10Z) - SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models [32.60274453610208]
我々は、ビデオにおける笑いの背景にある理性を理解するための新しい挑戦に取り組む。
提案するデータセットSMILEは、人々がなぜ笑うのかをビデオクリップと言語記述で記述する。
論文 参考訳(メタデータ) (2023-12-15T14:17:45Z) - LaughTalk: Expressive 3D Talking Head Generation with Laughter [15.60843963655039]
音声と実笑の両方を明瞭に表現できる3次元音声ヘッドを生成するための新しいタスクを提案する。
新たに収集したデータセットは、擬似アノテーションと人間検証された3DFLAMEパラメータをペアにした2D笑いビデオからなる。
本手法は,発話音声の生成と笑い信号の表現において,既存の手法と比較して好意的に機能する。
論文 参考訳(メタデータ) (2023-11-02T05:04:33Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Impact of annotation modality on label quality and model performance in
the automatic assessment of laughter in-the-wild [8.242747994568212]
笑いの知覚と注釈が、笑いの身体の動きを通じて、ビデオのような他のモダリティとアノテートされたときにどう違うかは、はっきりしない。
我々は、笑いの注釈がモダリティ間で一致しているかどうかを問うとともに、モダリティのラベル付けが機械学習モデルの性能に与える影響を比較した。
48のアノテーションから4000以上のアノテーションを解析したところ、笑いの知覚における矛盾の証拠と、そのモダリティ間の強度が明らかとなった。
論文 参考訳(メタデータ) (2022-11-02T00:18:08Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。