論文の概要: VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices
- arxiv url: http://arxiv.org/abs/2204.02090v1
- Date: Tue, 5 Apr 2022 10:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 15:02:23.993196
- Title: VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices
- Title(参考訳): VocaLiST: 唇と声のオーディオ・ビジュアル同期モデル
- Authors: Venkatesh S. Kadandale, Juan F. Montesinos, Gloria Haro
- Abstract要約: 人間の顔と声を含むビデオにおける唇声の同期の問題に対処する。
我々のアプローチは、ビデオ中の唇の動きと声が同期しているかどうかを判断することに基づいている。
本稿では,複数のベースラインモデルより優れた音響-視覚間変換器モデルを提案する。
- 参考スコア(独自算出の注目度): 4.167459103689587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of lip-voice synchronisation in videos
containing human face and voice. Our approach is based on determining if the
lips motion and the voice in a video are synchronised or not, depending on
their audio-visual correspondence score. We propose an audio-visual cross-modal
transformer-based model that outperforms several baseline models in the
audio-visual synchronisation task on the standard lip-reading speech benchmark
dataset LRS2. While the existing methods focus mainly on the lip
synchronisation in speech videos, we also consider the special case of singing
voice. Singing voice is a more challenging use case for synchronisation due to
sustained vowel sounds. We also investigate the relevance of lip
synchronisation models trained on speech datasets in the context of singing
voice. Finally, we use the frozen visual features learned by our lip
synchronisation model in the singing voice separation task to outperform a
baseline audio-visual model which was trained end-to-end. The demos, source
code, and the pre-trained model will be made available on
https://ipcv.github.io/VocaLiST/
- Abstract(参考訳): 本稿では,人間の顔と声を含むビデオにおける唇声の同期の問題に対処する。
提案手法は,映像中の唇の動きと音声が,音声と視覚の対応スコアに応じて同期しているかどうかを判定するものである。
本稿では,標準リップリード音声ベンチマークデータセットlrs2における音声-視覚同期タスクにおいて,複数のベースラインモデルを上回る音声-視覚クロスモーダルトランスフォーマモデルを提案する。
既存の手法は主に音声映像における唇同期に焦点をあてるが,歌唱音声の特殊な場合も考慮する。
歌声は持続母音音による同期のより困難なユースケースである。
また,歌唱音声の文脈における音声データセットに基づくリップ同期モデルの妥当性について検討した。
最後に,歌声分離作業における唇同期モデルで学習した凍結視覚特徴を用いて,エンドツーエンドに訓練したベースライン音声・視覚モデルより優れていた。
デモ、ソースコード、事前トレーニングされたモデルはhttps://ipcv.github.io/VocaLiST/で利用可能になる。
関連論文リスト
- Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z) - VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer [4.167459103689587]
本稿では,音声分離のための音声-視覚的アプローチを提案する。
音声と歌声の2つのシナリオにおいて、最先端の手法を低レイテンシで上回る。
論文 参考訳(メタデータ) (2022-03-08T14:08:47Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z) - A cappella: Audio-visual Singing Voice Separation [4.6453787256723365]
マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。
今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。
本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
論文 参考訳(メタデータ) (2021-04-20T13:17:06Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。