論文の概要: Say Anything with Any Style
- arxiv url: http://arxiv.org/abs/2403.06363v1
- Date: Mon, 11 Mar 2024 01:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:42:27.845258
- Title: Say Anything with Any Style
- Title(参考訳): どんなスタイルでも何でも言う
- Authors: Shuai Tan and Bin Ji and Yu Ding and Ye Pan
- Abstract要約: Anything withAny Styleは、学習したスタイルのコードブックで生成モデルを介して、個別のスタイル表現をクエリします。
提案手法は, リップ同期とスタイル表現の両方の観点から, 最先端の手法を超越した手法である。
- 参考スコア(独自算出の注目度): 9.50806457742173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating stylized talking head with diverse head motions is crucial for
achieving natural-looking videos but still remains challenging. Previous works
either adopt a regressive method to capture the speaking style, resulting in a
coarse style that is averaged across all training data, or employ a universal
network to synthesize videos with different styles which causes suboptimal
performance. To address these, we propose a novel dynamic-weight method, namely
Say Anything withAny Style (SAAS), which queries the discrete style
representation via a generative model with a learned style codebook.
Specifically, we develop a multi-task VQ-VAE that incorporates three closely
related tasks to learn a style codebook as a prior for style extraction. This
discrete prior, along with the generative model, enhances the precision and
robustness when extracting the speaking styles of the given style clips. By
utilizing the extracted style, a residual architecture comprising a canonical
branch and style-specific branch is employed to predict the mouth shapes
conditioned on any driving audio while transferring the speaking style from the
source to any desired one. To adapt to different speaking styles, we steer
clear of employing a universal network by exploring an elaborate HyperStyle to
produce the style-specific weights offset for the style branch. Furthermore, we
construct a pose generator and a pose codebook to store the quantized pose
representation, allowing us to sample diverse head motions aligned with the
audio and the extracted style. Experiments demonstrate that our approach
surpasses state-of-theart methods in terms of both lip-synchronization and
stylized expression. Besides, we extend our SAAS to video-driven style editing
field and achieve satisfactory performance.
- Abstract(参考訳): さまざまな頭の動きでスタイリングされた頭を生成することは、自然なビデオを実現するには不可欠だが、それでも難しい。
以前の作品では、スピーキングスタイルをキャプチャする回帰的手法を採用するか、すべてのトレーニングデータで平均される粗いスタイルになるか、あるいはサブオプティマパフォーマンスを引き起こす異なるスタイルでビデオを合成するためにユニバーサルネットワークを使用するかのどちらかである。
そこで本研究では,学習スタイルのコードブックを用いて生成モデルを用いて個別のスタイル表現をクエリする,新しい動的重み付け手法であるSay Anything withAny Style (SAAS)を提案する。
具体的には,3つの密接に関連するタスクを組み込んだマルチタスクvq-vaeを開発し,スタイル抽出に先立ってスタイルコードブックを学習する。
この離散前は、生成モデルとともに、与えられたスタイルクリップのスピーキングスタイルを抽出する際の精度と頑健性を高める。
抽出されたスタイルを利用して、標準分岐とスタイル特化分岐とからなる残余アーキテクチャを用いて、ソースから所望の音声に話スタイルを転送しながら、任意の駆動オーディオに条件付けられた口形状を予測する。
異なる発話スタイルに適応するために,スタイルブランチをオフセットするスタイル固有の重み付けを生成するための精巧なハイパースタイルを探索することで,普遍的なネットワークを使わずにすむ。
さらに、ポーズ生成器とポーズコードブックを構築し、定量化されたポーズ表現を格納し、音声や抽出されたスタイルに合わせて多様な頭部の動きをサンプリングする。
実験により,我々はリップ同期とスタイリッシュな表現の両方の観点から,最先端の手法を超越した手法を実証した。
さらに,SAASをビデオ駆動型編集領域に拡張し,良好な性能を実現する。
関連論文リスト
- SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-09-05T06:27:32Z) - StyleShot: A Snapshot on Any Style [20.41380860802149]
テスト時間チューニングを伴わない汎用的なスタイル転送には,優れたスタイル表現が不可欠であることを示す。
スタイル認識型エンコーダと、StyleGalleryと呼ばれるよく編成されたスタイルデータセットを構築することで、これを実現する。
当社のアプローチであるStyleShotは,テストタイムチューニングを必要とせずに,さまざまなスタイルを模倣する上で,シンプルかつ効果的なものです。
論文 参考訳(メタデータ) (2024-07-01T16:05:18Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models [24.401443462720135]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。
特に、私たちのスタイルには、頭部ポーズの生成が含まれており、それによってユーザの知覚が向上する。
高品質な映像データセットから再構成された3DMMパラメータをモデルに学習することで,3D音声データ不足に対処する。
論文 参考訳(メタデータ) (2023-09-30T17:01:18Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - StyleTalk: One-shot Talking Head Generation with Controllable Speaking
Styles [43.12918949398099]
ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。
任意の参照音声ビデオから話し方を得る。
それから、ワンショットのポートレートを駆動して、レファレンスな話し方と、別の音声で話す。
論文 参考訳(メタデータ) (2023-01-03T13:16:24Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。