論文の概要: UniFLG: Unified Facial Landmark Generator from Text or Speech
- arxiv url: http://arxiv.org/abs/2302.14337v1
- Date: Tue, 28 Feb 2023 06:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:57:11.962200
- Title: UniFLG: Unified Facial Landmark Generator from Text or Speech
- Title(参考訳): UniFLG:テキストや音声から一元化した顔のランドマーク生成装置
- Authors: Kentaro Mitsui, Yukiya Hono, Kei Sawada
- Abstract要約: 本稿では,話し顔生成のための統一顔ランドマーク生成器 (UniFLG) を提案する。
提案システムは、エンドツーエンドのテキスト音声を利用して、ランドマークデコーダにフィードし、顔のランドマークを生成する。
提案システムは,顔画像データや音声データなしに,話者の音声から顔のランドマークを生成できることを実証する。
- 参考スコア(独自算出の注目度): 5.405714165225471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face generation has been extensively investigated owing to its wide
applicability. The two primary frameworks used for talking face generation
comprise a text-driven framework, which generates synchronized speech and
talking faces from text, and a speech-driven framework, which generates talking
faces from speech. To integrate these frameworks, this paper proposes a unified
facial landmark generator (UniFLG). The proposed system exploits end-to-end
text-to-speech not only for synthesizing speech but also for extracting a
series of latent representations that are common to text and speech, and feeds
it to a landmark decoder to generate facial landmarks. We demonstrate that our
system achieves higher naturalness in both speech synthesis and facial landmark
generation compared to the state-of-the-art text-driven method. We further
demonstrate that our system can generate facial landmarks from speech of
speakers without facial video data or even speech data.
- Abstract(参考訳): 顔の生成は、その幅広い適用性のために広く研究されている。
話し顔生成に使用される2つの主要なフレームワークは、テキストから同期された音声と話し顔を生成するテキスト駆動フレームワークと、音声から話す顔を生成する音声駆動フレームワークからなる。
これらのフレームワークを統合するため,本稿では統一顔ランドマーク生成器 (uniflg) を提案する。
提案システムは、音声合成だけでなく、テキストや音声に共通する一連の潜在表現の抽出にも利用し、ランドマークデコーダに入力して顔のランドマークを生成する。
本研究では, 音声合成と顔のランドマーク生成において, 最先端のテキスト駆動方式よりも自然性が高いことを示す。
さらに, 顔画像データや音声データなしに, 話者の音声から顔のランドマークを生成できることを実証した。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Faces that Speak: Jointly Synthesising Talking Face and Speech from Text [22.87082439322244]
本研究では,TFG (Talking Face Generation) とTTS (Text-to-Speech) システムを統合されたフレームワークに統合することで実現した。
課題は,(1)実世界のシナリオを表わす一連の頭部ポーズを生成すること,(2)同一人物の顔の動きの変化に拘わらず,声の一貫性を確保すること,である。
実験により,本手法は,入力テキストと正確に一致した自然な表情と音声を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2024-05-16T17:29:37Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via
Speech-Visage Feature Selection [32.65865343643458]
近年の研究では、サイレント・トーキング・フェイス・ビデオから音声を合成する際の印象的な性能が示されている。
本稿では、音声コンテンツと話者識別を、入力ビデオの視覚的特徴から分離する音声視覚選択モジュールを提案する。
提案する枠組みは、未確認被写体の無声音声映像が付与された場合でも、適切な内容を含む音声を合成する利点をもたらす。
論文 参考訳(メタデータ) (2022-06-15T11:29:58Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - Generating coherent spontaneous speech and gesture from text [21.90157862281996]
人体コミュニケーションは、言語情報(音声)と非言語情報(ジェスチャーや頭の動きなど)の両方を含む
機械学習の最近の進歩は、これらのデータの両方の合成バージョンを生成する技術を大幅に改善した。
私たちはこの2つの最先端技術を初めてコヒーレントな方法で組み合わせました。
論文 参考訳(メタデータ) (2021-01-14T16:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。