論文の概要: More than Words: In-the-Wild Visually-Driven Prosody for Text-to-Speech
- arxiv url: http://arxiv.org/abs/2111.10139v1
- Date: Fri, 19 Nov 2021 10:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 21:33:18.058266
- Title: More than Words: In-the-Wild Visually-Driven Prosody for Text-to-Speech
- Title(参考訳): 言葉以上のもの:テキストから音声への視覚駆動型韻律
- Authors: Michael Hassid, Michelle Tadmor Ramanovich, Brendan Shillingford,
Miaosen Wang, Ye Jia, Tal Remez
- Abstract要約: ダビングによって動機づけられたVDTTSは、テキストとともに追加入力としてビデオフレームを利用する。
我々は、VDTTSが自然停止やピッチのような韻律的変化を持つだけでなく、入力ビデオと同期する音声を生成することができることを示す。
- 参考スコア(独自算出の注目度): 9.035846000646481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present VDTTS, a Visually-Driven Text-to-Speech model.
Motivated by dubbing, VDTTS takes advantage of video frames as an additional
input alongside text, and generates speech that matches the video signal. We
demonstrate how this allows VDTTS to, unlike plain TTS models, generate speech
that not only has prosodic variations like natural pauses and pitch, but is
also synchronized to the input video. Experimentally, we show our model
produces well synchronized outputs, approaching the video-speech
synchronization quality of the ground-truth, on several challenging benchmarks
including "in-the-wild" content from VoxCeleb2. We encourage the reader to view
the demo videos demonstrating video-speech synchronization, robustness to
speaker ID swapping, and prosody.
- Abstract(参考訳): 本稿では,視覚駆動型テキスト音声合成モデルであるVDTTSを提案する。
ダビングによって動機づけられたVDTTSは、ビデオフレームをテキストと共に追加入力として利用し、ビデオ信号にマッチする音声を生成する。
これにより、VDTTSが通常のTSモデルとは異なり、自然なポーズやピッチのような韻律的なバリエーションを持つだけでなく、入力ビデオと同期する音声を生成することができることを示す。
実験では,VoxCeleb2 の "in-the-wild" コンテンツを含むいくつかのベンチマークを用いて,音声の音声同期品質にアプローチし,良好な同期出力が得られることを示す。
我々は,ビデオ音声同期,話者IDスワップに対する堅牢性,韻律のデモビデオの視聴を推奨する。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Neural Dubber: Dubbing for Silent Videos According to Scripts [22.814626504851752]
本稿では,新しい自動ビデオダビング(AVD)タスクを解決するニューラルネットワークモデルであるNeural Dubberを提案する。
Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声モデルである。
実験により、ニューラルダバーはビデオによって合成音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成する。
論文 参考訳(メタデータ) (2021-10-15T17:56:07Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。