論文の概要: TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking
Styles
- arxiv url: http://arxiv.org/abs/2304.00334v1
- Date: Sat, 1 Apr 2023 15:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:46:08.501674
- Title: TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking
Styles
- Title(参考訳): talkclip: テキスト誘導型表現型スピーキングによる会話ヘッド生成
- Authors: Yifeng Ma, Suzhen Wang, Yu Ding, Bowen Ma, Tangjie Lv, Changjie Fan,
Zhipeng Hu, Zhidong Deng, Xin Yu
- Abstract要約: 本研究では,自然言語によって音声中の表現が特定されるTalkCLIPという,表現制御可能なワンショット音声ヘッド手法を提案する。
本手法は,テキスト記述による鮮明な表情による写真リアリスティックな音声ヘッド生成の高度化を実現する。
- 参考スコア(独自算出の注目度): 41.348309288780925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to produce facial-expression-specified talking head videos, previous
audio-driven one-shot talking head methods need to use a reference video with a
matching speaking style (i.e., facial expressions). However, finding videos
with a desired style may not be easy, potentially restricting their
application. In this work, we propose an expression-controllable one-shot
talking head method, dubbed TalkCLIP, where the expression in a speech is
specified by the natural language. This would significantly ease the difficulty
of searching for a video with a desired speaking style. Here, we first
construct a text-video paired talking head dataset, in which each video has
alternative prompt-alike descriptions. Specifically, our descriptions involve
coarse-level emotion annotations and facial action unit (AU) based fine-grained
annotations. Then, we introduce a CLIP-based style encoder that first projects
natural language descriptions to the CLIP text embedding space and then aligns
the textual embeddings to the representations of speaking styles. As extensive
textual knowledge has been encoded by CLIP, our method can even generalize to
infer a speaking style whose description has not been seen during training.
Extensive experiments demonstrate that our method achieves the advanced
capability of generating photo-realistic talking heads with vivid facial
expressions guided by text descriptions.
- Abstract(参考訳): 表情特定音声ヘッドビデオを作成するために、従来の音声駆動ワンショット音声ヘッドメソッドでは、一致する話し方(つまり表情)で参照ビデオを使用する必要がある。
しかし、望ましいスタイルでビデオを見つけるのは簡単ではなく、アプリケーションを制限する可能性がある。
本研究では,自然言語によって音声中の表現が特定されるTalkCLIPと呼ばれる,表現制御可能なワンショット音声ヘッド手法を提案する。
これにより、望ましい話し方でビデオを探すことの難しさが大幅に軽減される。
ここでは、まずテキストとビデオのペアによる音声ヘッドデータセットを構築し、それぞれのビデオに代替的なプロンプトのような記述がある。
具体的には、粗いレベルの感情アノテーションと顔行動単位(AU)に基づくきめ細かいアノテーションについて記述する。
次に、CLIPベースのスタイルエンコーダを導入し、まず自然言語記述をCLIPテキスト埋め込み空間に投影し、テキスト埋め込みを話し言葉スタイルの表現に合わせる。
CLIPによって広範なテキスト知識がコード化されているため、本手法は訓練中に説明が見られない話し方も推測できる。
広汎な実験により,本手法は,テキスト記述による鮮明な表情による写真リアリスティック・トーキング・ヘッドの生成能力の向上を実証した。
関連論文リスト
- Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - StyleCap: Automatic Speaking-Style Captioning from Speech Based on
Speech and Language Self-supervised Learning Models [17.945821635380614]
StyleCapは、音声に現れる話し方の自然言語記述を生成する方法である。
StyleCapは、音声と自然言語の記述のペアデータで訓練される。
論文 参考訳(メタデータ) (2023-11-28T04:49:17Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - StyleTalk: One-shot Talking Head Generation with Controllable Speaking
Styles [43.12918949398099]
ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。
任意の参照音声ビデオから話し方を得る。
それから、ワンショットのポートレートを駆動して、レファレンスな話し方と、別の音声で話す。
論文 参考訳(メタデータ) (2023-01-03T13:16:24Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。