論文の概要: SVTS: Scalable Video-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2205.02058v1
- Date: Wed, 4 May 2022 13:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:00:48.324901
- Title: SVTS: Scalable Video-to-Speech Synthesis
- Title(参考訳): SVTS:スケーラブルなビデオ音声合成
- Authors: Rodrigo Mira, Alexandros Haliassos, Stavros Petridis, Bj\"orn W.
Schuller and Maja Pantic
- Abstract要約: 本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
- 参考スコア(独自算出の注目度): 105.29009019733803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-speech synthesis (also known as lip-to-speech) refers to the
translation of silent lip movements into the corresponding audio. This task has
received an increasing amount of attention due to its self-supervised nature
(i.e., can be trained without manual labelling) combined with the ever-growing
collection of audio-visual data available online. Despite these strong
motivations, contemporary video-to-speech works focus mainly on small- to
medium-sized corpora with substantial constraints in both vocabulary and
setting. In this work, we introduce a scalable video-to-speech framework
consisting of two components: a video-to-spectrogram predictor and a
pre-trained neural vocoder, which converts the mel-frequency spectrograms into
waveform audio. We achieve state-of-the art results for GRID and considerably
outperform previous approaches on LRW. More importantly, by focusing on
spectrogram prediction using a simple feedforward model, we can efficiently and
effectively scale our method to very large and unconstrained datasets: To the
best of our knowledge, we are the first to show intelligible results on the
challenging LRS3 dataset.
- Abstract(参考訳): ビデオ音声合成(英語: Video-to-speech synthesis)は、サイレント唇の動きを対応する音声に変換することを指す。
このタスクは、自己監督的な性質(手動ラベリングなしでトレーニングできる)と、オンラインで利用可能な音声視覚データの収集によって、注目を集めている。
こうした強いモチベーションにもかかわらず、現代のビデオ音声作品は主に語彙と設定の両方にかなりの制約がある中小コーパスに焦点を当てている。
本研究では,メル周波数のスペクトログラムを波形音声に変換する,ビデオ対スペクトログラム予測器と事前学習されたニューラルネットワークボコーダという,2つのコンポーネントからなるスケーラブルなビデオ対音声フレームワークを提案する。
GRIDの最先端技術とLRWに対する従来のアプローチをかなり上回る結果を得た。
さらに重要なことは、単純なフィードフォワードモデルを使ってスペクトログラムの予測に焦点をあてることで、この手法を非常に大きくて訓練されていないデータセットに効率的かつ効果的に拡張することが可能である。
関連論文リスト
- video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。
Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文 参考訳(メタデータ) (2024-06-22T01:36:11Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。