論文の概要: Speech2Video: Cross-Modal Distillation for Speech to Video Generation
- arxiv url: http://arxiv.org/abs/2107.04806v1
- Date: Sat, 10 Jul 2021 10:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 08:38:34.858145
- Title: Speech2Video: Cross-Modal Distillation for Speech to Video Generation
- Title(参考訳): Speech2Video:ビデオ生成のためのクロスモーダル蒸留
- Authors: Shijing Si, Jianzong Wang, Xiaoyang Qu, Ning Cheng, Wenqi Wei, Xinghua
Zhu and Jing Xiao
- Abstract要約: 音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
- 参考スコア(独自算出の注目度): 21.757776580641902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates a novel task of talking face video generation solely
from speeches. The speech-to-video generation technique can spark interesting
applications in entertainment, customer service, and human-computer-interaction
industries. Indeed, the timbre, accent and speed in speeches could contain rich
information relevant to speakers' appearance. The challenge mainly lies in
disentangling the distinct visual attributes from audio signals. In this
article, we propose a light-weight, cross-modal distillation method to extract
disentangled emotional and identity information from unlabelled video inputs.
The extracted features are then integrated by a generative adversarial network
into talking face video clips. With carefully crafted discriminators, the
proposed framework achieves realistic generation results. Experiments with
observed individuals demonstrated that the proposed framework captures the
emotional expressions solely from speeches, and produces spontaneous facial
motion in the video output. Compared to the baseline method where speeches are
combined with a static image of the speaker, the results of the proposed
framework is almost indistinguishable. User studies also show that the proposed
method outperforms the existing algorithms in terms of emotion expression in
the generated videos.
- Abstract(参考訳): 本稿では,音声のみから発声顔映像生成の新たな課題について検討する。
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
実際、音声の音色、アクセント、速度は、話者の外観に関連する豊富な情報を含んでいる。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
本稿では,不規則なビデオ入力から絡み合った感情やアイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
抽出した特徴は、生成的対向ネットワークによって音声合成ビデオクリップに統合される。
慎重に考案された識別器を用いて、提案するフレームワークは現実的な生成結果を達成する。
観察された個人による実験では、提案手法が発話のみから感情表現を捉え、映像出力に自発的な顔の動きを生じさせることが示されている。
話者の静的画像と音声を結合したベースライン法と比較すると,提案手法の結果はほぼ区別がつかない。
また,提案手法は,映像中の感情表現の面で既存のアルゴリズムを上回っていることを示す。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via
Speech-Visage Feature Selection [32.65865343643458]
近年の研究では、サイレント・トーキング・フェイス・ビデオから音声を合成する際の印象的な性能が示されている。
本稿では、音声コンテンツと話者識別を、入力ビデオの視覚的特徴から分離する音声視覚選択モジュールを提案する。
提案する枠組みは、未確認被写体の無声音声映像が付与された場合でも、適切な内容を含む音声を合成する利点をもたらす。
論文 参考訳(メタデータ) (2022-06-15T11:29:58Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。