論文の概要: Facial Landmark Predictions with Applications to Metaverse
- arxiv url: http://arxiv.org/abs/2209.14698v1
- Date: Thu, 29 Sep 2022 11:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 16:53:35.339953
- Title: Facial Landmark Predictions with Applications to Metaverse
- Title(参考訳): 顔のランドマーク予測とメタバースへの応用
- Authors: Qiao Han, Jun Zhao, Kwok-Yan Lam
- Abstract要約: 本研究では,映像から学習した唇のアニメーションを加えることで,メタバースキャラクタをよりリアルにすることを目的とする。
そこで本研究では,タコトロン2のテキスト・トゥ・スペルによる唇の動きを,メル・スペクトログラムを1パスで生成する手法を提案する。
- 参考スコア(独自算出の注目度): 18.805012029074657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research aims to make metaverse characters more realistic by adding lip
animations learnt from videos in the wild. To achieve this, our approach is to
extend Tacotron 2 text-to-speech synthesizer to generate lip movements together
with mel spectrogram in one pass. The encoder and gate layer weights are
pre-trained on LJ Speech 1.1 data set while the decoder is retrained on 93
clips of TED talk videos extracted from LRS 3 data set. Our novel decoder
predicts displacement in 20 lip landmark positions across time, using labels
automatically extracted by OpenFace 2.0 landmark predictor. Training converged
in 7 hours using less than 5 minutes of video. We conducted ablation study for
Pre/Post-Net and pre-trained encoder weights to demonstrate the effectiveness
of transfer learning between audio and visual speech data.
- Abstract(参考訳): 本研究では,映像から学習した唇のアニメーションを加えることで,メタバースキャラクタをよりリアルにすることを目的とする。
そこで本研究では,タコトロン2テキスト音声合成装置を拡張して,メルスペクトログラム1パスで唇の動きを生成する。
エンコーダとゲート層重みは、LJ Speech 1.1データセットで事前トレーニングされ、デコーダは、LRS3データセットから抽出されたTEDトークビデオの93クリップで再トレーニングされる。
新たなデコーダは,OpenFace 2.0のランドマーク予測器によって自動的に抽出されたラベルを用いて,20個のリップランドマーク位置の変位を予測する。
訓練は5分未満のビデオで7時間で完了した。
音声データと視覚音声データ間の伝達学習の有効性を示すため,プリ/ポストネットとプリトレーニングエンコーダ重みに対するアブレーション実験を行った。
関連論文リスト
- Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder [21.155264134308915]
リップリーダーは、ビデオで捉えたスピーカーのサイレントな唇の動きから、音声コンテンツを自動で書き起こすことを目的としている。
マルチスケールビデオデータとマルチエンコーダを組み込むことにより,唇読取能力を向上させることを提案する。
提案手法はICME 2024 ChatCLR Challenge Task 2で2位となった。
論文 参考訳(メタデータ) (2024-04-08T12:44:24Z) - Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。
ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。
How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-01T23:55:04Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。