Fugu-MT 論文翻訳(概要): End to End Lip Synchronization with a Temporal AutoEncoder

論文の概要: End to End Lip Synchronization with a Temporal AutoEncoder

arxiv url: http://arxiv.org/abs/2203.16224v1
Date: Wed, 30 Mar 2022 12:00:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 22:22:09.776765
Title: End to End Lip Synchronization with a Temporal AutoEncoder
Title（参考訳）: テンポラルオートエンコーダを用いた終端唇同期
Authors: Yoav Shalev, Lior Wolf
Abstract要約: ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
参考スコア（独自算出の注目度）: 95.94432031144716
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the problem of syncing the lip movement in a video with the audio stream. Our solution finds an optimal alignment using a dual-domain recurrent neural network that is trained on synthetic data we generate by dropping and duplicating video frames. Once the alignment is found, we modify the video in order to sync the two sources. Our method is shown to greatly outperform the literature methods on a variety of existing and new benchmarks. As an application, we demonstrate our ability to robustly align text-to-speech generated audio with an existing video stream. Our code and samples are available at https://github.com/itsyoavshalev/End-to-End-Lip-Synchronization-with-a-Temporal-AutoEncoder.
Abstract（参考訳）: ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。提案手法では,ビデオフレームのドロップおよび重複により生成する合成データに基づいて学習する2領域再帰ニューラルネットワークを用いて最適なアライメントを求める。アライメントが見つかったら、2つのソースを同期させるためにビデオを変更します。本手法は,既存のベンチマークおよび新しいベンチマークにおいて,文献的手法を大きく上回ることを示す。アプリケーションとして,テキスト対音声生成音声を既存のビデオストリームにロバストに調整できることを実証する。私たちのコードとサンプルはhttps://github.com/itsyoavshalev/End-to-End-Lip-Synchronization-with-a-Temporal-AutoEncoderで公開されています。

関連論文リスト

Long-Video Audio Synthesis with Multi-Agent Collaboration [20.332328741375363]
LVAS-Agentは、協調的な役割を通じてプロのダビングをエミュレートする新しいフレームワークである。提案手法は,シーンセグメンテーション,スクリプト生成,音響設計,音声合成の4段階に分割する。中心的なイノベーションには、シーン/スクリプトの洗練のための議論の補正機構や、時間-意味的アライメントのための世代-検索ループが含まれる。
論文参考訳（メタデータ） (2025-03-13T07:58:23Z)
Synchronized Video-to-Audio Generation via Mel Quantization-Continuum Decomposition [31.25956665297592]
我々はメルスペクトルを3種類の信号に分解し、量子化や連続性を利用する。開発したV2X(V2X)予測器により,映像から効果的に予測できる。そして、予測信号を再分解して制御ネットに入力し、テキスト反転設計を行い、音声生成プロセスを制御する。
論文参考訳（メタデータ） (2025-03-10T07:04:03Z)
EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos [3.6078215038168473]
EgoSonicsは,サイレントなエゴセントリックなビデオに条件付けされた意味論的に意味があり,同期された音声トラックを生成する手法である。サイレントなエゴセントリックなビデオのためのオーディオを生成することは、仮想現実、補助技術、または既存のデータセットを拡大するための新しいアプリケーションを開く可能性がある。
論文参考訳（メタデータ） (2024-07-30T06:57:00Z)
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。 FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文参考訳（メタデータ） (2024-07-01T17:35:56Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
Large-scale unsupervised audio pre-training for video-to-speech synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文参考訳（メタデータ） (2023-06-27T13:31:33Z)
Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文参考訳（メタデータ） (2022-10-13T14:25:37Z)
Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-14T14:01:03Z)
End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文参考訳（メタデータ） (2021-04-27T17:12:30Z)
Audio-based Near-Duplicate Video Retrieval with Audio Similarity Learning [19.730467023817123]
ビデオペア間の音声類似性の時間的パターンを効果的にキャプチャするオーディオ類似性学習(AuSiL)手法を提案する。我々は三重項生成プロセスに従ってネットワークをトレーニングし、三重項損失関数を最適化する。提案手法は3つの最先端手法と比較して非常に競合的な結果が得られる。
論文参考訳（メタデータ） (2020-10-17T08:12:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。