論文の概要: Text-to-Video: a Two-stage Framework for Zero-shot Identity-agnostic
Talking-head Generation
- arxiv url: http://arxiv.org/abs/2308.06457v1
- Date: Sat, 12 Aug 2023 03:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 17:13:33.466771
- Title: Text-to-Video: a Two-stage Framework for Zero-shot Identity-agnostic
Talking-head Generation
- Title(参考訳): text-to-video:ゼロショットのアイデンティティ非依存な会話ヘッド生成のための2段階フレームワーク
- Authors: Zhichao Wang, Mengyu Dai, Keld Lundgaard
- Abstract要約: 本稿では,人別ビデオクローンのための新しい2段階フレームワークを提案する。
最初の段階では、事前訓練されたゼロショットモデルを利用してテキスト音声変換を行う。
第2段階では、説得力のあるビデオを生成するために、音声駆動音声ヘッド生成法が用いられる。
- 参考スコア(独自算出の注目度): 16.12424393291571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of ChatGPT has introduced innovative methods for information
gathering and analysis. However, the information provided by ChatGPT is limited
to text, and the visualization of this information remains constrained.
Previous research has explored zero-shot text-to-video (TTV) approaches to
transform text into videos. However, these methods lacked control over the
identity of the generated audio, i.e., not identity-agnostic, hindering their
effectiveness. To address this limitation, we propose a novel two-stage
framework for person-agnostic video cloning, specifically focusing on TTV
generation. In the first stage, we leverage pretrained zero-shot models to
achieve text-to-speech (TTS) conversion. In the second stage, an audio-driven
talking head generation method is employed to produce compelling videos
privided the audio generated in the first stage. This paper presents a
comparative analysis of different TTS and audio-driven talking head generation
methods, identifying the most promising approach for future research and
development. Some audio and videos samples can be found in the following link:
https://github.com/ZhichaoWang970201/Text-to-Video/tree/main.
- Abstract(参考訳): ChatGPTの出現により、情報収集と分析のための革新的な手法が導入された。
しかし、ChatGPTが提供する情報はテキストに限られており、この情報の可視化には制約がある。
これまでの研究は、テキストをビデオに変換するためのゼロショットテキスト・トゥ・ビデオ(ttv)アプローチを探求してきた。
しかし、これらの手法は生成した音声の同一性、すなわちアイデンティティに依存しないものではなく、その効果を妨げていた。
この制限に対処するために、特にTTV生成に焦点を当てた、個人非依存のビデオクローンのための新しい2段階フレームワークを提案する。
第1段階では,事前学習したゼロショットモデルを利用してtts(text-to-speech)変換を行う。
第2段では、第1段で生成された音声を主とする説得力のあるビデオを生成するために、音声駆動の音声ヘッド生成方法が用いられる。
本稿では,ttsと音声駆動音声ヘッド生成手法の比較分析を行い,今後の研究開発に最も有望なアプローチを明らかにする。
オーディオとビデオのサンプルは以下のリンクで見ることができる。
関連論文リスト
- Tell What You Hear From What You See -- Video to Audio Generation Through Text [17.95017332858846]
VATTは、ビデオとオプションのテキストプロンプトを入力として取り、オーディオとオプションのテキスト記述を生成するマルチモーダル生成フレームワークである。
VATTは、音声キャプションを通じてビデオのテキストプロンプトを推奨するだけでなく、テキストによる制御可能なビデオ音声生成を可能にする。
論文 参考訳(メタデータ) (2024-11-08T16:29:07Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。
この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文 参考訳(メタデータ) (2021-04-29T19:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。