論文の概要: Say Anything with Any Style
- arxiv url: http://arxiv.org/abs/2403.06363v2
- Date: Wed, 13 Mar 2024 01:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:14.878434
- Title: Say Anything with Any Style
- Title(参考訳): 何でも流儀で言う
- Authors: Shuai Tan and Bin Ji and Yu Ding and Ye Pan
- Abstract要約: Anything withAny Styleは、学習したスタイルのコードブックで生成モデルを介して、個別のスタイル表現をクエリします。
提案手法は, リップ同期とスタイル表現の両方の観点から, 最先端の手法を超越した手法である。
- 参考スコア(独自算出の注目度): 9.50806457742173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating stylized talking head with diverse head motions is crucial for
achieving natural-looking videos but still remains challenging. Previous works
either adopt a regressive method to capture the speaking style, resulting in a
coarse style that is averaged across all training data, or employ a universal
network to synthesize videos with different styles which causes suboptimal
performance. To address these, we propose a novel dynamic-weight method, namely
Say Anything withAny Style (SAAS), which queries the discrete style
representation via a generative model with a learned style codebook.
Specifically, we develop a multi-task VQ-VAE that incorporates three closely
related tasks to learn a style codebook as a prior for style extraction. This
discrete prior, along with the generative model, enhances the precision and
robustness when extracting the speaking styles of the given style clips. By
utilizing the extracted style, a residual architecture comprising a canonical
branch and style-specific branch is employed to predict the mouth shapes
conditioned on any driving audio while transferring the speaking style from the
source to any desired one. To adapt to different speaking styles, we steer
clear of employing a universal network by exploring an elaborate HyperStyle to
produce the style-specific weights offset for the style branch. Furthermore, we
construct a pose generator and a pose codebook to store the quantized pose
representation, allowing us to sample diverse head motions aligned with the
audio and the extracted style. Experiments demonstrate that our approach
surpasses state-of-theart methods in terms of both lip-synchronization and
stylized expression. Besides, we extend our SAAS to video-driven style editing
field and achieve satisfactory performance.
- Abstract(参考訳): さまざまな頭の動きでスタイリングされた頭を生成することは、自然に見えるビデオを実現するには不可欠だが、それでも難しい。
以前の作品では、会話スタイルをキャプチャする回帰的手法を採用しており、その結果、すべてのトレーニングデータで平均化される粗いスタイルとなるか、あるいは、様々なスタイルでビデオを合成するために普遍的なネットワークを使用している。
そこで本研究では,学習スタイルのコードブックを用いて生成モデルを用いて個別のスタイル表現をクエリする,新しい動的重み付け手法であるSay Anything withAny Style (SAAS)を提案する。
具体的には、3つの密接に関連するタスクを組み込んだマルチタスクVQ-VAEを開発し、スタイル抽出の先駆けとしてスタイルコードブックを学習する。
この離散的な先行は、生成モデルとともに、与えられたスタイルクリップの発声スタイルを抽出する際の精度と堅牢性を高める。
抽出されたスタイルを利用して、標準分岐とスタイル特化分岐とからなる残余アーキテクチャを用いて、ソースから任意の所望のスタイルに話スタイルを転送しながら、任意の駆動オーディオに条件付けられた口形状を予測する。
異なる話し方に適応するために、我々は、スタイルブランチのスタイル固有の重み付けをオフセットするために、精巧なHyperStyleを探索することで、普遍的なネットワークを採用することを明確にする。
さらに、ポーズ生成器とポーズコードブックを構築して、定量化されたポーズ表現を格納し、音声や抽出されたスタイルに合わせて様々な頭部の動きをサンプリングする。
実験により,本手法はリップ同期とスタイリング表現の両面で最先端の手法を超越していることが示された。
さらに,SAASをビデオ駆動型編集領域に拡張し,良好な性能を実現する。
関連論文リスト
- StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style
Adapter [74.68550659331405]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose
Generation via Diffusion Models [25.515240381570013]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。
推論中、音声とスタイルに基づいて生成過程を案内するために分類器なし指導を用いる。
また,高品質な音声視覚データセットから再構成された3DMMパラメータのモデルをトレーニングすることで,3D音声データ不足にも対処する。
論文 参考訳(メタデータ) (2023-09-30T17:01:18Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - StyleTalk: One-shot Talking Head Generation with Controllable Speaking
Styles [43.12918949398099]
ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。
任意の参照音声ビデオから話し方を得る。
それから、ワンショットのポートレートを駆動して、レファレンスな話し方と、別の音声で話す。
論文 参考訳(メタデータ) (2023-01-03T13:16:24Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Imitating Arbitrary Talking Style for Realistic Audio-DrivenTalking Face
Synthesis [17.650661515807993]
本稿では,特定の参照ビデオの任意の発話スタイルを模倣することにより,音声合成フレームワークにスタイルを注入することを提案する。
我々は,スタイルコードから発声スタイルを模倣して,スタイリングされた音声を合成する潜在スタイル融合(LSF)モデルを考案した。
論文 参考訳(メタデータ) (2021-10-30T08:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。