論文の概要: TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking
Styles
- arxiv url: http://arxiv.org/abs/2304.00334v1
- Date: Sat, 1 Apr 2023 15:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:46:08.501674
- Title: TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking
Styles
- Title(参考訳): talkclip: テキスト誘導型表現型スピーキングによる会話ヘッド生成
- Authors: Yifeng Ma, Suzhen Wang, Yu Ding, Bowen Ma, Tangjie Lv, Changjie Fan,
Zhipeng Hu, Zhidong Deng, Xin Yu
- Abstract要約: 本研究では,自然言語によって音声中の表現が特定されるTalkCLIPという,表現制御可能なワンショット音声ヘッド手法を提案する。
本手法は,テキスト記述による鮮明な表情による写真リアリスティックな音声ヘッド生成の高度化を実現する。
- 参考スコア(独自算出の注目度): 41.348309288780925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to produce facial-expression-specified talking head videos, previous
audio-driven one-shot talking head methods need to use a reference video with a
matching speaking style (i.e., facial expressions). However, finding videos
with a desired style may not be easy, potentially restricting their
application. In this work, we propose an expression-controllable one-shot
talking head method, dubbed TalkCLIP, where the expression in a speech is
specified by the natural language. This would significantly ease the difficulty
of searching for a video with a desired speaking style. Here, we first
construct a text-video paired talking head dataset, in which each video has
alternative prompt-alike descriptions. Specifically, our descriptions involve
coarse-level emotion annotations and facial action unit (AU) based fine-grained
annotations. Then, we introduce a CLIP-based style encoder that first projects
natural language descriptions to the CLIP text embedding space and then aligns
the textual embeddings to the representations of speaking styles. As extensive
textual knowledge has been encoded by CLIP, our method can even generalize to
infer a speaking style whose description has not been seen during training.
Extensive experiments demonstrate that our method achieves the advanced
capability of generating photo-realistic talking heads with vivid facial
expressions guided by text descriptions.
- Abstract(参考訳): 表情特定音声ヘッドビデオを作成するために、従来の音声駆動ワンショット音声ヘッドメソッドでは、一致する話し方(つまり表情)で参照ビデオを使用する必要がある。
しかし、望ましいスタイルでビデオを見つけるのは簡単ではなく、アプリケーションを制限する可能性がある。
本研究では,自然言語によって音声中の表現が特定されるTalkCLIPと呼ばれる,表現制御可能なワンショット音声ヘッド手法を提案する。
これにより、望ましい話し方でビデオを探すことの難しさが大幅に軽減される。
ここでは、まずテキストとビデオのペアによる音声ヘッドデータセットを構築し、それぞれのビデオに代替的なプロンプトのような記述がある。
具体的には、粗いレベルの感情アノテーションと顔行動単位(AU)に基づくきめ細かいアノテーションについて記述する。
次に、CLIPベースのスタイルエンコーダを導入し、まず自然言語記述をCLIPテキスト埋め込み空間に投影し、テキスト埋め込みを話し言葉スタイルの表現に合わせる。
CLIPによって広範なテキスト知識がコード化されているため、本手法は訓練中に説明が見られない話し方も推測できる。
広汎な実験により,本手法は,テキスト記述による鮮明な表情による写真リアリスティック・トーキング・ヘッドの生成能力の向上を実証した。
関連論文リスト
- EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D
Talking Face Generation [28.71632683090641]
本稿では,表情生成のための音声・視覚指導システムを提案する。
人間の音声から直接顔の動きを学習する代わりに、私たちの2段階の戦略はLLMが最初に音声情報を解釈することを含む。
この2段階のプロセスは、LLMの組み込みと組み合わせて、モデルの解釈可能性を高め、ユーザーに命令を理解する柔軟性を提供する。
論文 参考訳(メタデータ) (2024-02-25T15:51:05Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - SpeechCLIP: Integrating Speech with Pre-Trained Vision and Language
Model [56.49878599920353]
SpeechCLIPは、画像を通して音声とテキストをブリッジし、文字起こしなしに音声モデルを強化する新しいフレームワークである。
我々は、最先端の訓練済みのHuBERTとCLIPを活用し、ペア画像と音声キャプションを最小限の微調整で調整する。
論文 参考訳(メタデータ) (2022-10-03T04:15:36Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。