論文の概要: End to End Lip Synchronization with a Temporal AutoEncoder
- arxiv url: http://arxiv.org/abs/2203.16224v1
- Date: Wed, 30 Mar 2022 12:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 22:22:09.776765
- Title: End to End Lip Synchronization with a Temporal AutoEncoder
- Title(参考訳): テンポラルオートエンコーダを用いた終端唇同期
- Authors: Yoav Shalev, Lior Wolf
- Abstract要約: ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
- 参考スコア(独自算出の注目度): 95.94432031144716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of syncing the lip movement in a video with the audio
stream. Our solution finds an optimal alignment using a dual-domain recurrent
neural network that is trained on synthetic data we generate by dropping and
duplicating video frames. Once the alignment is found, we modify the video in
order to sync the two sources. Our method is shown to greatly outperform the
literature methods on a variety of existing and new benchmarks. As an
application, we demonstrate our ability to robustly align text-to-speech
generated audio with an existing video stream. Our code and samples are
available at
https://github.com/itsyoavshalev/End-to-End-Lip-Synchronization-with-a-Temporal-AutoEncoder.
- Abstract(参考訳): ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
提案手法では,ビデオフレームのドロップおよび重複により生成する合成データに基づいて学習する2領域再帰ニューラルネットワークを用いて最適なアライメントを求める。
アライメントが見つかったら、2つのソースを同期させるためにビデオを変更します。
本手法は,既存のベンチマークおよび新しいベンチマークにおいて,文献的手法を大きく上回ることを示す。
アプリケーションとして,テキスト対音声生成音声を既存のビデオストリームにロバストに調整できることを実証する。
私たちのコードとサンプルはhttps://github.com/itsyoavshalev/End-to-End-Lip-Synchronization-with-a-Temporal-AutoEncoderで公開されています。
関連論文リスト
- Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - On the Audio-visual Synchronization for Lip-to-Speech Synthesis [22.407313748927393]
GRID, TCD-TIMIT, Lip2Wav などの一般的な音声視覚データセットは, データの非同期性に問題があることを示す。
このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。
論文 参考訳(メタデータ) (2023-03-01T13:35:35Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Audio-based Near-Duplicate Video Retrieval with Audio Similarity
Learning [19.730467023817123]
ビデオペア間の音声類似性の時間的パターンを効果的にキャプチャするオーディオ類似性学習(AuSiL)手法を提案する。
我々は三重項生成プロセスに従ってネットワークをトレーニングし、三重項損失関数を最適化する。
提案手法は3つの最先端手法と比較して非常に競合的な結果が得られる。
論文 参考訳(メタデータ) (2020-10-17T08:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。