Fugu-MT 論文翻訳(概要): StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing

論文の概要: StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing

arxiv url: http://arxiv.org/abs/2402.12636v2
Date: Wed, 21 Feb 2024 14:29:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 11:55:36.527181
Title: StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing
Title（参考訳）: StyleDubber: 映画ダビングのためのマルチスケールスタイル学習を目指して
Authors: Gaoxiang Cong, Yuankai Qi, Liang Li, Amin Beheshti, Zhedong Zhang, Anton van den Hengel, Ming-Hsuan Yang, Chenggang Yan, Qingming Huang
Abstract要約: フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
参考スコア（独自算出の注目度）: 130.59583816162692
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given a script, the challenge in Movie Dubbing (Visual Voice Cloning, V2C) is to generate speech that aligns well with the video in both time and emotion, based on the tone of a reference audio track. Existing state-of-the-art V2C models break the phonemes in the script according to the divisions between video frames, which solves the temporal alignment problem but leads to incomplete phoneme pronunciation and poor identity stability. To address this problem, we propose StyleDubber, which switches dubbing learning from the frame level to phoneme level. It contains three main components: (1) A multimodal style adaptor operating at the phoneme level to learn pronunciation style from the reference audio, and generate intermediate representations informed by the facial emotion presented in the video; (2) An utterance-level style learning module, which guides both the mel-spectrogram decoding and the refining processes from the intermediate embeddings to improve the overall style expression; And (3) a phoneme-guided lip aligner to maintain lip sync. Extensive experiments on two of the primary benchmarks, V2C and Grid, demonstrate the favorable performance of the proposed method as compared to the current state-of-the-art. The source code and trained models will be released to the public.
Abstract（参考訳）: 脚本が与えられた場合、映画ダビング(Visual Voice Cloning, V2C)の課題は、基準音声トラックのトーンに基づいて、時間と感情の両方でビデオとうまく一致した音声を生成することである。既存の最先端V2Cモデルは、時間的アライメント問題を解決するが、不完全音素発音と不完全性安定性をもたらすビデオフレーム間の分割に従って、スクリプト内の音素を分解する。そこで本稿では,この問題を解決するために,学習をフレームレベルから音素レベルに切り替えるstyledubberを提案する。 It contains three main components: (1) A multimodal style adaptor operating at the phoneme level to learn pronunciation style from the reference audio, and generate intermediate representations informed by the facial emotion presented in the video; (2) An utterance-level style learning module, which guides both the mel-spectrogram decoding and the refining processes from the intermediate embeddings to improve the overall style expression; And (3) a phoneme-guided lip aligner to maintain lip sync. 2つの主要なベンチマークであるV2CとGridの大規模な実験は、提案手法の現況と比較して好適な性能を示した。ソースコードとトレーニングされたモデルは一般公開される予定だ。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
Spotlighting Partially Visible Cinematic Language for Video-to-Audio Generation via Self-distillation [34.67832016708788]
本稿では,V2Aモデルを映画言語シナリオに拡張するための自己蒸留手法を提案する。映像言語の変化をシミュレートすることで、学生モデルは、トレーニングペアのビデオ特徴と、同じ音声と視覚の対応とを一致させることを学ぶ。提案手法は,全評価指標に対する部分的可視性の向上とともに,大規模V2AデータセットであるVGGSoundの性能向上を実現している。
論文参考訳（メタデータ） (2025-07-03T03:23:11Z)
FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [78.83988199306901]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。本研究では,大言語モデルと二重コントラスト整合を組み込むことで,高品質な音声・視覚同期と発音を実現するFlowDubberを提案する。
論文参考訳（メタデータ） (2025-05-02T13:30:19Z)
VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models [43.1613638989795]
テキストと顔の手がかりから高品質な音声を合成する,ビデオダビングの自動化手法であるVoiceCraft-Dubを提案する。この課題は、映画製作、マルチメディア制作、音声障害者支援に広く応用されている。
論文参考訳（メタデータ） (2025-04-03T08:24:47Z)
Contextual Gesture: Co-Speech Gesture Video Generation through Context-aware Gesture Representation [11.838249135550662]
Contextual Gestureは、3つの革新的なコンポーネントを通じて音声ジェスチャービデオ生成を改善するフレームワークである。実験により、コンテキストジェスチャは、現実的かつ音声対応のジェスチャービデオを生成するだけでなく、長文生成および動画ジェスチャー編集アプリケーションもサポートすることが示された。
論文参考訳（メタデータ） (2025-02-11T04:09:12Z)
Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。 0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文参考訳（メタデータ） (2024-05-12T07:59:46Z)
Audio-Driven Dubbing for User Generated Contents via Style-Aware Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文参考訳（メタデータ） (2023-08-31T15:41:40Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-12-08T03:29:04Z)
Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文参考訳（メタデータ） (2022-12-05T15:28:22Z)
VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文参考訳（メタデータ） (2022-11-27T08:14:23Z)
V2C: Visual Voice Cloning [55.55301826567474]
我々はVisual Voice Cloning (V2C) という新しいタスクを提案する。 V2Cは、参照音声によって特定された所望の音声と、参照ビデオによって特定された所望の感情の両方で、テキストの段落を音声に変換する。私たちのデータセットには、さまざまなジャンルをカバーする10,217本のアニメーション映画クリップが含まれています。
論文参考訳（メタデータ） (2021-11-25T03:35:18Z)
Neural Dubber: Dubbing for Silent Videos According to Scripts [22.814626504851752]
本稿では,新しい自動ビデオダビング(AVD)タスクを解決するニューラルネットワークモデルであるNeural Dubberを提案する。 Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声モデルである。実験により、ニューラルダバーはビデオによって合成音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成する。
論文参考訳（メタデータ） (2021-10-15T17:56:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。