論文の概要: Modality Dropout for Improved Performance-driven Talking Faces
- arxiv url: http://arxiv.org/abs/2005.13616v1
- Date: Wed, 27 May 2020 19:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 08:38:35.645444
- Title: Modality Dropout for Improved Performance-driven Talking Faces
- Title(参考訳): パフォーマンス駆動型会話面の改善のためのモダリティドロップアウト
- Authors: Ahmed Hussen Abdelaziz and Barry-John Theobald and Paul Dixon and
Reinhard Knothe and Nicholas Apostoloff and Sachin Kajareker
- Abstract要約: 本稿では,音響情報と視覚情報の両方を用いて,アニメーション・フェイスを駆動するための新しいディープラーニング手法について述べる。
主観的テストを用いて,1) 映像のみのアプローチによる音声視覚駆動型アニメーションの改善,2) モダリティ・ドロップアウトの導入による音声関連顔の動きのアニメーションの改善を実証する。
- 参考スコア(独自算出の注目度): 5.6856010789797296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our novel deep learning approach for driving animated faces using
both acoustic and visual information. In particular, speech-related facial
movements are generated using audiovisual information, and non-speech facial
movements are generated using only visual information. To ensure that our model
exploits both modalities during training, batches are generated that contain
audio-only, video-only, and audiovisual input features. The probability of
dropping a modality allows control over the degree to which the model exploits
audio and visual information during training. Our trained model runs in
real-time on resource limited hardware (e.g.\ a smart phone), it is user
agnostic, and it is not dependent on a potentially error-prone transcription of
the speech. We use subjective testing to demonstrate: 1) the improvement of
audiovisual-driven animation over the equivalent video-only approach, and 2)
the improvement in the animation of speech-related facial movements after
introducing modality dropout. Before introducing dropout, viewers prefer
audiovisual-driven animation in 51% of the test sequences compared with only
18% for video-driven. After introducing dropout viewer preference for
audiovisual-driven animation increases to 74%, but decreases to 8% for
video-only.
- Abstract(参考訳): 本稿では,音響情報と視覚情報の両方を用いてアニメーションを駆動する新しい深層学習手法について述べる。
特に音声視覚情報を用いて音声関連顔動きを生成し、視覚情報のみを使用して非音声顔動きを生成する。
我々のモデルはトレーニング中に両方のモダリティを活用できるように、オーディオのみ、ビデオのみ、オーディオ視覚入力機能を含むバッチを生成する。
モダリティを落とす確率は、モデルがトレーニング中にオーディオや視覚情報を利用する程度を制御できる。
トレーニングされたモデルは、リソース制限されたハードウェア(例えば、スマートフォン)でリアルタイムに動作し、ユーザ非依存であり、音声の潜在的なエラーを起こしやすい書き起こしに依存しない。
実証には主観的テストを使用します。
1)同等の映像のみのアプローチによるオーディオ視覚駆動型アニメーションの改善
2) モダリティ・ドロップアウト導入による音声関連顔の動きのアニメーションの改善
dropoutを導入する前に、視聴者はテストシーケンスの51%でオーディオビジュアルアニメーションを好み、ビデオ駆動では18%だった。
音声視覚駆動アニメーションのドロップアウトビューア選好は74%まで上昇するが、ビデオ専用では8%に低下する。
関連論文リスト
- Multimodal Input Aids a Bayesian Model of Phonetic Learning [0.6827423171182154]
本稿では,既存の音声コーパスのための高品質な音声合成ビデオを作成する方法を提案する。
我々の学習モデルは、オーディオ視覚入力の訓練と試験の両方を行うと、音素識別電池の8.1%の相対的な改善が達成される。
視覚情報は特にノイズの多いオーディオ環境において有益である。
論文 参考訳(メタデータ) (2024-07-22T19:00:11Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。