論文の概要: Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis
- arxiv url: http://arxiv.org/abs/2309.00030v1
- Date: Thu, 31 Aug 2023 15:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 15:41:55.279749
- Title: Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis
- Title(参考訳): スタイル対応セミパラメトリック合成によるユーザ生成コンテンツのオーディオ駆動ダビング
- Authors: Linsen Song, Wayne Wu, Chaoyou Fu, Chen Change Loy, Ran He
- Abstract要約: 既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
- 参考スコア(独自算出の注目度): 123.11530365315677
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing automated dubbing methods are usually designed for Professionally
Generated Content (PGC) production, which requires massive training data and
training time to learn a person-specific audio-video mapping. In this paper, we
investigate an audio-driven dubbing method that is more feasible for User
Generated Content (UGC) production. There are two unique challenges to design a
method for UGC: 1) the appearances of speakers are diverse and arbitrary as the
method needs to generalize across users; 2) the available video data of one
speaker are very limited. In order to tackle the above challenges, we first
introduce a new Style Translation Network to integrate the speaking style of
the target and the speaking content of the source via a cross-modal AdaIN
module. It enables our model to quickly adapt to a new speaker. Then, we
further develop a semi-parametric video renderer, which takes full advantage of
the limited training data of the unseen speaker via a video-level
retrieve-warp-refine pipeline. Finally, we propose a temporal regularization
for the semi-parametric renderer, generating more continuous videos. Extensive
experiments show that our method generates videos that accurately preserve
various speaking styles, yet with considerably lower amount of training data
and training time in comparison to existing methods. Besides, our method
achieves a faster testing speed than most recent methods.
- Abstract(参考訳): 既存の自動ダビング法は通常、PGC(Professionally Generated Content)生産のために設計されており、個人固有のオーディオビデオマッピングを学ぶのに大量のトレーニングデータとトレーニング時間を必要とする。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
UGCのための方法の設計には2つのユニークな課題がある。
1) ユーザ間で一般化する必要があるため,話者の外観は多様かつ任意である。
2) 一つの話者のビデオデータは非常に限られている。
上記の課題に取り組むため,まず,ターゲットの発話スタイルとソースの発話内容とをクロスモーダルなadainモジュールで統合する,新しいスタイル翻訳ネットワークを提案する。
モデルが新しいスピーカーに素早く適応できるようにします。
次に,映像レベルの検索・ワープ・リファインメント・パイプラインを介して,未認識話者の限られたトレーニングデータを活用したセミパラメトリック・ビデオレンダラの開発を行う。
最後に、半パラメトリックレンダラーの時間的正規化を提案し、より連続的なビデオを生成する。
広範に実験した結果,本手法は様々な発話スタイルを正確に保存するビデオを生成するが,既存の手法に比べてトレーニングデータとトレーニング時間はかなり少ないことがわかった。
また,本手法は最近の手法よりも高速なテスト速度を実現する。
関連論文リスト
- Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
本稿では,VTTSのビデオから音声を生成するタスクを提案し,マルチモーダル音声生成のための新しい手法を提案する。
本稿では,このタスクをビザトロニクスと呼ぶデコーダのみのマルチモーダルモデルを提案する。
視覚、テキスト、音声を直接トランスフォーマーモデルの共通部分空間に埋め込み、自己回帰的損失を用いて、話者ビデオや音声の書き起こしに条件付けられた離散化メル-スペクトログラムの生成モデルを学ぶ。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。