論文の概要: Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary
- arxiv url: http://arxiv.org/abs/2104.14631v1
- Date: Thu, 29 Apr 2021 19:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:31:52.038078
- Title: Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary
- Title(参考訳): text2video: 音声辞書を用いた音声対話型ビデオ合成
- Authors: Sibo Zhang, Jiahong Yuan, Miao Liao, Liangjun Zhang
- Abstract要約: テキストから映像を合成するための新しいアプローチを紹介します。
この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
- 参考スコア(独自算出の注目度): 10.590649169151055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advance of deep learning technology, automatic video generation from
audio or text has become an emerging and promising research topic. In this
paper, we present a novel approach to synthesize video from the text. The
method builds a phoneme-pose dictionary and trains a generative adversarial
network (GAN) to generate video from interpolated phoneme poses. Compared to
audio-driven video generation algorithms, our approach has a number of
advantages: 1) It only needs a fraction of the training data used by an
audio-driven approach; 2) It is more flexible and not subject to vulnerability
due to speaker variation; 3) It significantly reduces the preprocessing,
training and inference time. We perform extensive experiments to compare the
proposed method with state-of-the-art talking face generation methods on a
benchmark dataset and datasets of our own. The results demonstrate the
effectiveness and superiority of our approach.
- Abstract(参考訳): ディープラーニング技術の進歩により、音声やテキストからの自動ビデオ生成が、新しくて有望な研究トピックになりつつある。
本稿では,テキストから映像を合成する新しい手法を提案する。
この方法は、音素ポーズ辞書を構築し、音素ポーズの補間からビデオを生成するために生成広告ネットワーク(gan)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して,(1)音声駆動アプローチで使用されるトレーニングデータのほんの一部しか必要とせず,2)話者のばらつきにより柔軟性が高く,脆弱性を伴わない,3)前処理,トレーニング,推論時間を大幅に削減する,という利点がある。
提案手法をベンチマークデータセットとデータセット上で,最先端の会話顔生成手法と比較するために,広範囲にわたる実験を行った。
その結果,我々のアプローチの有効性と優位性を示した。
関連論文リスト
- Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Text-to-Video: a Two-stage Framework for Zero-shot Identity-agnostic
Talking-head Generation [16.12424393291571]
本稿では,人別ビデオクローンのための新しい2段階フレームワークを提案する。
最初の段階では、事前訓練されたゼロショットモデルを利用してテキスト音声変換を行う。
第2段階では、説得力のあるビデオを生成するために、音声駆動音声ヘッド生成法が用いられる。
論文 参考訳(メタデータ) (2023-08-12T03:30:49Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses [36.00309828380724]
本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-07-17T19:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。