Fugu-MT 論文翻訳(概要): Audio-Driven Dubbing for User Generated Contents via Style-Aware Semi-Parametric Synthesis

論文の概要: Audio-Driven Dubbing for User Generated Contents via Style-Aware Semi-Parametric Synthesis

arxiv url: http://arxiv.org/abs/2309.00030v1
Date: Thu, 31 Aug 2023 15:41:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-04 15:41:55.279749
Title: Audio-Driven Dubbing for User Generated Contents via Style-Aware Semi-Parametric Synthesis
Title（参考訳）: スタイル対応セミパラメトリック合成によるユーザ生成コンテンツのオーディオ駆動ダビング
Authors: Linsen Song, Wayne Wu, Chaoyou Fu, Chen Change Loy, Ran He
Abstract要約: 既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
参考スコア（独自算出の注目度）: 123.11530365315677
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing automated dubbing methods are usually designed for Professionally Generated Content (PGC) production, which requires massive training data and training time to learn a person-specific audio-video mapping. In this paper, we investigate an audio-driven dubbing method that is more feasible for User Generated Content (UGC) production. There are two unique challenges to design a method for UGC: 1) the appearances of speakers are diverse and arbitrary as the method needs to generalize across users; 2) the available video data of one speaker are very limited. In order to tackle the above challenges, we first introduce a new Style Translation Network to integrate the speaking style of the target and the speaking content of the source via a cross-modal AdaIN module. It enables our model to quickly adapt to a new speaker. Then, we further develop a semi-parametric video renderer, which takes full advantage of the limited training data of the unseen speaker via a video-level retrieve-warp-refine pipeline. Finally, we propose a temporal regularization for the semi-parametric renderer, generating more continuous videos. Extensive experiments show that our method generates videos that accurately preserve various speaking styles, yet with considerably lower amount of training data and training time in comparison to existing methods. Besides, our method achieves a faster testing speed than most recent methods.
Abstract（参考訳）: 既存の自動ダビング法は通常、PGC(Professionally Generated Content)生産のために設計されており、個人固有のオーディオビデオマッピングを学ぶのに大量のトレーニングデータとトレーニング時間を必要とする。本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。 UGCのための方法の設計には2つのユニークな課題がある。 1) ユーザ間で一般化する必要があるため,話者の外観は多様かつ任意である。 2) 一つの話者のビデオデータは非常に限られている。上記の課題に取り組むため,まず,ターゲットの発話スタイルとソースの発話内容とをクロスモーダルなadainモジュールで統合する,新しいスタイル翻訳ネットワークを提案する。モデルが新しいスピーカーに素早く適応できるようにします。次に,映像レベルの検索・ワープ・リファインメント・パイプラインを介して,未認識話者の限られたトレーニングデータを活用したセミパラメトリック・ビデオレンダラの開発を行う。最後に、半パラメトリックレンダラーの時間的正規化を提案し、より連続的なビデオを生成する。広範に実験した結果,本手法は様々な発話スタイルを正確に保存するビデオを生成するが,既存の手法に比べてトレーニングデータとトレーニング時間はかなり少ないことがわかった。また,本手法は最近の手法よりも高速なテスト速度を実現する。

関連論文リスト

Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm [45.95521091275734]
そこで本研究では,音声同期型ビジュアルアニメーションを,豊富なノイズのあるビデオでスケールアップするための,効率的な2段階トレーニングパラダイムを提案する。ステージ1では,事前学習のための大規模ビデオを自動的にキュレートし,多様だが不完全なオーディオ映像アライメントを学習する。ステージ2では、手作業による高品質な例でモデルを微調整するが、小規模でしかなく、必要な人的労力を大幅に削減する。
論文参考訳（メタデータ） (2025-08-05T22:44:36Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model [22.286624353800377]
本研究では,2次元人間の骨格を中間動作表現として用い,音声合成のための新しいパイプラインを提案する。実験の結果,本手法は既存のGAN法および拡散法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-04-11T08:19:18Z)
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
本稿では,VTTSのビデオから音声を生成するタスクを提案し,マルチモーダル音声生成のための新しい手法を提案する。本稿では,このタスクをビザトロニクスと呼ぶデコーダのみのマルチモーダルモデルを提案する。視覚、テキスト、音声を直接トランスフォーマーモデルの共通部分空間に埋め込み、自己回帰的損失を用いて、話者ビデオや音声の書き起こしに条件付けられた離散化メル-スペクトログラムの生成モデルを学ぶ。
論文参考訳（メタデータ） (2024-11-26T18:57:29Z)
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。 VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文参考訳（メタデータ） (2024-10-04T11:40:53Z)
Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文参考訳（メタデータ） (2024-07-08T01:59:17Z)
Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。 0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文参考訳（メタデータ） (2024-05-12T07:59:46Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文参考訳（メタデータ） (2020-01-13T18:56:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。