Fugu-MT 論文翻訳(概要): Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style

論文の概要: Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style

arxiv url: http://arxiv.org/abs/2403.06365v1
Date: Mon, 11 Mar 2024 01:32:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 20:43:30.741058
Title: Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style
Title（参考訳）: Style2Talker:感情スタイルとアートスタイルを備えた高解像度トーキングヘッドジェネレーション
Authors: Shuai Tan, Bin Ji, Ye Pan
Abstract要約: 本稿では,Style2Talkerという,革新的な音声駆動音声生成手法を提案する。 Style-EとStyle-Aという2つのスタイル化ステージがあり、テキストコントロールされた感情スタイルと絵コントロールされたアートスタイルを最終出力に統合する。本手法は、感情スタイルと芸術スタイルの両方のオーディオ-リップ同期とパフォーマンスの観点から、既存の最先端手法よりも優れています。
参考スコア（独自算出の注目度）: 4.978754943172958
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although automatically animating audio-driven talking heads has recently received growing interest, previous efforts have mainly concentrated on achieving lip synchronization with the audio, neglecting two crucial elements for generating expressive videos: emotion style and art style. In this paper, we present an innovative audio-driven talking face generation method called Style2Talker. It involves two stylized stages, namely Style-E and Style-A, which integrate text-controlled emotion style and picture-controlled art style into the final output. In order to prepare the scarce emotional text descriptions corresponding to the videos, we propose a labor-free paradigm that employs large-scale pretrained models to automatically annotate emotional text labels for existing audiovisual datasets. Incorporating the synthetic emotion texts, the Style-E stage utilizes a large-scale CLIP model to extract emotion representations, which are combined with the audio, serving as the condition for an efficient latent diffusion model designed to produce emotional motion coefficients of a 3DMM model. Moving on to the Style-A stage, we develop a coefficient-driven motion generator and an art-specific style path embedded in the well-known StyleGAN. This allows us to synthesize high-resolution artistically stylized talking head videos using the generated emotional motion coefficients and an art style source picture. Moreover, to better preserve image details and avoid artifacts, we provide StyleGAN with the multi-scale content features extracted from the identity image and refine its intermediate feature maps by the designed content encoder and refinement network, respectively. Extensive experimental results demonstrate our method outperforms existing state-of-the-art methods in terms of audio-lip synchronization and performance of both emotion style and art style.
Abstract（参考訳）: 音声駆動音声ヘッドの自動アニメーションは近年注目されているが、従来の取り組みは主に、感情スタイルとアートスタイルという2つの重要な要素を無視して、音声と唇の同期を実現することに集中してきた。本稿では,Style2Talkerという,革新的な音声駆動音声生成手法を提案する。 Style-EとStyle-Aという2つのスタイル化ステージがあり、テキストコントロールされた感情スタイルと絵コントロールされたアートスタイルを最終出力に統合する。そこで本研究では,既存の映像データセットに対して感情的テキストラベルを自動アノテートする大規模事前学習モデルを用いた,無労働のパラダイムを提案する。合成感情テキストを組み込んだStyle-Eステージでは、大規模CLIPモデルを用いて、音声と組み合わせた感情表現を抽出し、3DMMモデルの感情運動係数を生成するために設計された効率的な潜在拡散モデルの条件として機能する。そこで我々は,Style-Aステージに進むことで,係数駆動型モーションジェネレータと,有名なStyleGANに埋め込まれたアート固有のスタイルパスを開発する。これにより、生成した感情的動き係数とアートスタイルのソース画像を用いて、高解像度のトーキーヘッドビデオを合成することができる。さらに,画像の詳細をよりよく保存し,アーティファクトを避けるために,識別画像から抽出したマルチスケールコンテンツ特徴をStyleGANに提供し,その中間特徴マップを設計したコンテンツエンコーダと精細化ネットワークで改良する。本手法は,感情スタイルとアートスタイルの両方の音声-リップ同期とパフォーマンスにおいて,既存の最先端手法よりも優れた性能を示す。

関連論文リスト

Model See Model Do: Speech-Driven Facial Animation with Style Control [14.506128477193991]
音声駆動の3D顔アニメーションは、仮想アバター、ゲーム、デジタルコンテンツ作成などのアプリケーションにおいて重要な役割を果たす。既存の手法は、正確な唇同期を実現し、基本的な感情表現を生成するために大きな進歩を遂げてきた。本稿では,参照スタイルクリップ上で遅延拡散モデルを条件とした新しい例ベース生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-02T14:47:21Z)
OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文参考訳（メタデータ） (2025-04-03T09:48:13Z)
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文参考訳（メタデータ） (2025-01-18T07:51:29Z)
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。 MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文参考訳（メタデータ） (2024-12-05T18:57:26Z)
ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。 AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文参考訳（メタデータ） (2024-10-12T07:01:17Z)
SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文参考訳（メタデータ） (2024-09-05T06:27:32Z)
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文参考訳（メタデータ） (2024-04-17T17:59:55Z)
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [18.364859748601887]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文参考訳（メタデータ） (2024-02-27T13:10:11Z)
Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-18T01:49:42Z)
Towards 4D Human Video Stylization [56.33756124829298]
本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
論文参考訳（メタデータ） (2023-12-07T08:58:33Z)
StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。 StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文参考訳（メタデータ） (2023-12-01T03:53:21Z)
Personalized Speech-driven Expressive 3D Facial Animation Synthesis with Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文参考訳（メタデータ） (2023-10-25T21:22:28Z)
Text2Performer: Text-Driven Human Video Generation [97.3849869893433]
テキストによるコンテンツ制作は、創造性に革命をもたらす変革的技術へと進化してきた。そこで本研究では,対象パフォーマーの外観や動きを記述したテキストから映像シーケンスを合成する,テキスト駆動型ヒューマンビデオ生成の課題について検討する。そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
論文参考訳（メタデータ） (2023-04-17T17:59:02Z)
Text-driven Emotional Style Control and Cross-speaker Style Transfer in Neural TTS [7.384726530165295]
合成音声のスタイル制御は、しばしば個別の感情カテゴリーに制限される。マルチスピーカTTSにおける感情的スタイル制御とクロススピーカースタイル転送のためのテキストベースインタフェースを提案する。
論文参考訳（メタデータ） (2022-07-13T07:05:44Z)
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。 GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2022-05-15T08:16:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。