論文の概要: Style2Talker: High-Resolution Talking Head Generation with Emotion Style
and Art Style
- arxiv url: http://arxiv.org/abs/2403.06365v2
- Date: Tue, 12 Mar 2024 03:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:20:55.489113
- Title: Style2Talker: High-Resolution Talking Head Generation with Emotion Style
and Art Style
- Title(参考訳): Style2Talker:感情スタイルとアートスタイルを備えた高解像度トーキングヘッドジェネレーション
- Authors: Shuai Tan, Bin Ji, Ye Pan
- Abstract要約: 本稿では,Style2Talkerという,革新的な音声駆動音声生成手法を提案する。
Style-EとStyle-Aという2つのスタイル化ステージがあり、テキストコントロールされた感情スタイルと絵コントロールされたアートスタイルを最終出力に統合する。
本手法は、感情スタイルと芸術スタイルの両方のオーディオ-リップ同期とパフォーマンスの観点から、既存の最先端手法よりも優れています。
- 参考スコア(独自算出の注目度): 4.978754943172958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although automatically animating audio-driven talking heads has recently
received growing interest, previous efforts have mainly concentrated on
achieving lip synchronization with the audio, neglecting two crucial elements
for generating expressive videos: emotion style and art style. In this paper,
we present an innovative audio-driven talking face generation method called
Style2Talker. It involves two stylized stages, namely Style-E and Style-A,
which integrate text-controlled emotion style and picture-controlled art style
into the final output. In order to prepare the scarce emotional text
descriptions corresponding to the videos, we propose a labor-free paradigm that
employs large-scale pretrained models to automatically annotate emotional text
labels for existing audiovisual datasets. Incorporating the synthetic emotion
texts, the Style-E stage utilizes a large-scale CLIP model to extract emotion
representations, which are combined with the audio, serving as the condition
for an efficient latent diffusion model designed to produce emotional motion
coefficients of a 3DMM model. Moving on to the Style-A stage, we develop a
coefficient-driven motion generator and an art-specific style path embedded in
the well-known StyleGAN. This allows us to synthesize high-resolution
artistically stylized talking head videos using the generated emotional motion
coefficients and an art style source picture. Moreover, to better preserve
image details and avoid artifacts, we provide StyleGAN with the multi-scale
content features extracted from the identity image and refine its intermediate
feature maps by the designed content encoder and refinement network,
respectively. Extensive experimental results demonstrate our method outperforms
existing state-of-the-art methods in terms of audio-lip synchronization and
performance of both emotion style and art style.
- Abstract(参考訳): 音声駆動音声ヘッドの自動アニメーションは近年注目されているが、従来の取り組みは主に、感情スタイルとアートスタイルという2つの重要な要素を無視して、音声と唇の同期を実現することに集中してきた。
本稿では,Style2Talkerという,革新的な音声駆動音声生成手法を提案する。
Style-EとStyle-Aという2つのスタイル化ステージがあり、テキストコントロールされた感情スタイルと絵コントロールされたアートスタイルを最終出力に統合する。
そこで本研究では,既存の映像データセットに対して感情的テキストラベルを自動アノテートする大規模事前学習モデルを用いた,無労働のパラダイムを提案する。
合成感情テキストを組み込んだStyle-Eステージでは、大規模CLIPモデルを用いて、音声と組み合わせた感情表現を抽出し、3DMMモデルの感情運動係数を生成するために設計された効率的な潜在拡散モデルの条件として機能する。
そこで我々は,Style-Aステージに進むことで,係数駆動型モーションジェネレータと,有名なStyleGANに埋め込まれたアート固有のスタイルパスを開発する。
これにより、生成した感情的動き係数とアートスタイルのソース画像を用いて、高解像度のトーキーヘッドビデオを合成することができる。
さらに,画像の詳細をよりよく保存し,アーティファクトを避けるために,識別画像から抽出したマルチスケールコンテンツ特徴をStyleGANに提供し,その中間特徴マップを設計したコンテンツエンコーダと精細化ネットワークで改良する。
本手法は,感情スタイルとアートスタイルの両方の音声-リップ同期とパフォーマンスにおいて,既存の最先端手法よりも優れた性能を示す。
関連論文リスト
- ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。
我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:01:17Z) - SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-09-05T06:27:32Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [18.364859748601887]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。
本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文 参考訳(メタデータ) (2024-02-27T13:10:11Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - Towards 4D Human Video Stylization [56.33756124829298]
本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。
我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。
我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
論文 参考訳(メタデータ) (2023-12-07T08:58:33Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - Text2Performer: Text-Driven Human Video Generation [97.3849869893433]
テキストによるコンテンツ制作は、創造性に革命をもたらす変革的技術へと進化してきた。
そこで本研究では,対象パフォーマーの外観や動きを記述したテキストから映像シーケンスを合成する,テキスト駆動型ヒューマンビデオ生成の課題について検討する。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
論文 参考訳(メタデータ) (2023-04-17T17:59:02Z) - Text-driven Emotional Style Control and Cross-speaker Style Transfer in
Neural TTS [7.384726530165295]
合成音声のスタイル制御は、しばしば個別の感情カテゴリーに制限される。
マルチスピーカTTSにおける感情的スタイル制御とクロススピーカースタイル転送のためのテキストベースインタフェースを提案する。
論文 参考訳(メタデータ) (2022-07-13T07:05:44Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。