論文の概要: On the Audio-visual Synchronization for Lip-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2303.00502v1
- Date: Wed, 1 Mar 2023 13:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:39:34.397904
- Title: On the Audio-visual Synchronization for Lip-to-Speech Synthesis
- Title(参考訳): 口唇合成における視聴覚同期について
- Authors: Zhe Niu and Brian Mak
- Abstract要約: GRID, TCD-TIMIT, Lip2Wav などの一般的な音声視覚データセットは, データの非同期性に問題があることを示す。
このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。
- 参考スコア(独自算出の注目度): 22.407313748927393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most lip-to-speech (LTS) synthesis models are trained and evaluated under the
assumption that the audio-video pairs in the dataset are perfectly
synchronized. In this work, we show that the commonly used audio-visual
datasets, such as GRID, TCD-TIMIT, and Lip2Wav, can have data asynchrony
issues. Training lip-to-speech with such datasets may further cause the model
asynchrony issue -- that is, the generated speech and the input video are out
of sync. To address these asynchrony issues, we propose a synchronized
lip-to-speech (SLTS) model with an automatic synchronization mechanism (ASM) to
correct data asynchrony and penalize model asynchrony. We further demonstrate
the limitation of the commonly adopted evaluation metrics for LTS with
asynchronous test data and introduce an audio alignment frontend before the
metrics sensitive to time alignment for better evaluation. We compare our
method with state-of-the-art approaches on conventional and time-aligned
metrics to show the benefits of synchronization training.
- Abstract(参考訳): 音声合成モデルの多くは、データセット内の音声とビデオのペアが完全に同期していると仮定して訓練され、評価される。
本研究では、GRID、TD-TIMIT、Lip2Wavなどの一般的な音声視覚データセットが、データ非同期性の問題を引き起こすことを示す。
このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。
これらの非同期問題に対処するため、自動同期機構(ASM)を備えた同期リップ・トゥ・スペル(SLTS)モデルを提案し、データ同期を補正し、モデル非同期をペナライズする。
さらに、非同期テストデータを用いてLTSの広く採用されている評価基準の制限を実証し、時間的アライメントに敏感なメトリクスの前にオーディオアライメントフロントエンドを導入し、よりよい評価を行う。
本手法を従来の測定値と時間整合測定値の最先端手法と比較し,同期トレーニングの利点を示す。
関連論文リスト
- Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文 参考訳(メタデータ) (2022-03-30T12:00:18Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - Automatic audiovisual synchronisation for ultrasound tongue imaging [35.60751372748571]
超音波と音声を同時に記録し、このデータを正しく利用するには、2つのモードを正しく同期させる必要がある。
同期化は特別なハードウェアを用いて記録時に達成されるが、このアプローチは実際に失敗し、ユーザビリティが制限される。
本稿では,データ収集後の超音波と音声の自動同期の問題に対処する。
自己教師型ニューラルネットワークによって駆動される自動同期に対する我々のアプローチについて述べる。
論文 参考訳(メタデータ) (2021-05-31T17:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。