Fugu-MT 論文翻訳(概要): Say Anything with Any Style

論文の概要: Say Anything with Any Style

arxiv url: http://arxiv.org/abs/2403.06363v2
Date: Wed, 13 Mar 2024 01:37:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 10:59:14.878434
Title: Say Anything with Any Style
Title（参考訳）: 何でも流儀で言う
Authors: Shuai Tan and Bin Ji and Yu Ding and Ye Pan
Abstract要約: Anything withAny Styleは、学習したスタイルのコードブックで生成モデルを介して、個別のスタイル表現をクエリします。提案手法は, リップ同期とスタイル表現の両方の観点から, 最先端の手法を超越した手法である。
参考スコア（独自算出の注目度）: 9.50806457742173
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating stylized talking head with diverse head motions is crucial for achieving natural-looking videos but still remains challenging. Previous works either adopt a regressive method to capture the speaking style, resulting in a coarse style that is averaged across all training data, or employ a universal network to synthesize videos with different styles which causes suboptimal performance. To address these, we propose a novel dynamic-weight method, namely Say Anything withAny Style (SAAS), which queries the discrete style representation via a generative model with a learned style codebook. Specifically, we develop a multi-task VQ-VAE that incorporates three closely related tasks to learn a style codebook as a prior for style extraction. This discrete prior, along with the generative model, enhances the precision and robustness when extracting the speaking styles of the given style clips. By utilizing the extracted style, a residual architecture comprising a canonical branch and style-specific branch is employed to predict the mouth shapes conditioned on any driving audio while transferring the speaking style from the source to any desired one. To adapt to different speaking styles, we steer clear of employing a universal network by exploring an elaborate HyperStyle to produce the style-specific weights offset for the style branch. Furthermore, we construct a pose generator and a pose codebook to store the quantized pose representation, allowing us to sample diverse head motions aligned with the audio and the extracted style. Experiments demonstrate that our approach surpasses state-of-theart methods in terms of both lip-synchronization and stylized expression. Besides, we extend our SAAS to video-driven style editing field and achieve satisfactory performance.
Abstract（参考訳）: さまざまな頭の動きでスタイリングされた頭を生成することは、自然に見えるビデオを実現するには不可欠だが、それでも難しい。以前の作品では、会話スタイルをキャプチャする回帰的手法を採用しており、その結果、すべてのトレーニングデータで平均化される粗いスタイルとなるか、あるいは、様々なスタイルでビデオを合成するために普遍的なネットワークを使用している。そこで本研究では,学習スタイルのコードブックを用いて生成モデルを用いて個別のスタイル表現をクエリする,新しい動的重み付け手法であるSay Anything withAny Style (SAAS)を提案する。具体的には、3つの密接に関連するタスクを組み込んだマルチタスクVQ-VAEを開発し、スタイル抽出の先駆けとしてスタイルコードブックを学習する。この離散的な先行は、生成モデルとともに、与えられたスタイルクリップの発声スタイルを抽出する際の精度と堅牢性を高める。抽出されたスタイルを利用して、標準分岐とスタイル特化分岐とからなる残余アーキテクチャを用いて、ソースから任意の所望のスタイルに話スタイルを転送しながら、任意の駆動オーディオに条件付けられた口形状を予測する。異なる話し方に適応するために、我々は、スタイルブランチのスタイル固有の重み付けをオフセットするために、精巧なHyperStyleを探索することで、普遍的なネットワークを採用することを明確にする。さらに、ポーズ生成器とポーズコードブックを構築して、定量化されたポーズ表現を格納し、音声や抽出されたスタイルに合わせて様々な頭部の動きをサンプリングする。実験により,本手法はリップ同期とスタイリング表現の両面で最先端の手法を超越していることが示された。さらに,SAASをビデオ駆動型編集領域に拡張し,良好な性能を実現する。

関連論文リスト

SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文参考訳（メタデータ） (2024-09-05T06:27:32Z)
StyleShot: A Snapshot on Any Style [20.41380860802149]
テスト時間チューニングを伴わない汎用的なスタイル転送には,優れたスタイル表現が不可欠であることを示す。スタイル認識型エンコーダと、StyleGalleryと呼ばれるよく編成されたスタイルデータセットを構築することで、これを実現する。当社のアプローチであるStyleShotは,テストタイムチューニングを必要とせずに,さまざまなスタイルを模倣する上で,シンプルかつ効果的なものです。
論文参考訳（メタデータ） (2024-07-01T16:05:18Z)
StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。 StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文参考訳（メタデータ） (2023-12-01T03:53:21Z)
DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models [24.401443462720135]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。特に、私たちのスタイルには、頭部ポーズの生成が含まれており、それによってユーザの知覚が向上する。高品質な映像データセットから再構成された3DMMパラメータをモデルに学習することで,3D音声データ不足に対処する。
論文参考訳（メタデータ） (2023-09-30T17:01:18Z)
Visual Captioning at Will: Describing Images and Videos Guided by a Few Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-31T04:26:01Z)
StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文参考訳（メタデータ） (2023-03-16T12:44:44Z)
StyleTalk: One-shot Talking Head Generation with Controllable Speaking Styles [43.12918949398099]
ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。任意の参照音声ビデオから話し方を得る。それから、ワンショットのポートレートを駆動して、レファレンスな話し方と、別の音声で話す。
論文参考訳（メタデータ） (2023-01-03T13:16:24Z)
Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文参考訳（メタデータ） (2022-05-19T13:11:24Z)
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。 GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2022-05-15T08:16:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。