論文の概要: MCDubber: Multimodal Context-Aware Expressive Video Dubbing
- arxiv url: http://arxiv.org/abs/2408.11593v3
- Date: Wed, 4 Sep 2024 01:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 12:43:35.632529
- Title: MCDubber: Multimodal Context-Aware Expressive Video Dubbing
- Title(参考訳): MCDubber:マルチモーダルなコンテキスト対応表現型ビデオダビング
- Authors: Yuan Zhao, Zhenqi Jia, Rui Liu, De Hu, Feilong Bao, Guanglai Gao,
- Abstract要約: 我々は,テキストbfMCDubberと呼ばれるマルチモーダルコンテキスト対応ビデオダビングモデルを提案し,モデリング対象を単一の文からコンテキスト情報付きより長いシーケンスに変換する。
Chemベンチマークデータセットの実験では、MCDubberは全ての高度なベースラインと比較してダビング表現性を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 16.281333709312253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Video Dubbing (AVD) aims to take the given script and generate speech that aligns with lip motion and prosody expressiveness. Current AVD models mainly utilize visual information of the current sentence to enhance the prosody of synthesized speech. However, it is crucial to consider whether the prosody of the generated dubbing aligns with the multimodal context, as the dubbing will be combined with the original context in the final video. This aspect has been overlooked in previous studies. To address this issue, we propose a Multimodal Context-aware video Dubbing model, termed \textbf{MCDubber}, to convert the modeling object from a single sentence to a longer sequence with context information to ensure the consistency of the global context prosody. MCDubber comprises three main components: (1) A context duration aligner aims to learn the context-aware alignment between the text and lip frames; (2) A context prosody predictor seeks to read the global context visual sequence and predict the context-aware global energy and pitch; (3) A context acoustic decoder ultimately predicts the global context mel-spectrogram with the assistance of adjacent ground-truth mel-spectrograms of the target sentence. Through this process, MCDubber fully considers the influence of multimodal context on the prosody expressiveness of the current sentence when dubbing. The extracted mel-spectrogram belonging to the target sentence from the output context mel-spectrograms is the final required dubbing audio. Extensive experiments on the Chem benchmark dataset demonstrate that our MCDubber significantly improves dubbing expressiveness compared to all advanced baselines. The code and demos are available at https://github.com/XiaoYuanJun-zy/MCDubber.
- Abstract(参考訳): 自動ビデオダビング(AVD)は、与えられたスクリプトを取得し、唇の動きと韻律表現性に合わせた音声を生成することを目的としている。
現在のAVDモデルは、合成音声の韻律を高めるために、主に現在の文の視覚情報を利用する。
しかし, 生成したダビングの韻律とマルチモーダルな文脈との整合性は考慮する必要がある。
この側面は以前の研究で見過ごされてきた。
この問題に対処するため,大域的文脈韻律の整合性を確保するために,マルチモーダルなコンテキスト対応ビデオダビングモデルである「textbf{MCDubber}」を提案する。
MCDubber は,(1) 文脈持続時間調整器は,テキストフレームと唇フレーム間のコンテキスト認識アライメントを学習すること,(2) 文脈韻律予測器は,グローバルコンテキストの視覚的シーケンスを読み取って,コンテキスト認識のグローバルエネルギーとピッチを予測すること,(3) コンテキスト音響復号器は,隣接する接地トラスメルスペクトルの助けを借りて,最終的にグローバルコンテキストメルスペクトルを予測すること,の3つの主成分から構成される。
このプロセスを通じて、MCDubberは、ダビング時の現行文の韻律表現性に対するマルチモーダルコンテキストの影響を十分に検討する。
出力コンテキスト mel-spectrograms から対象文に属する抽出したmel-spectrogram は、最後の必要なダビングオーディオである。
Chemベンチマークデータセットの大規模な実験により、我々のMCDubberは、全ての高度なベースラインと比較してダビング表現性を著しく改善することが示された。
コードとデモはhttps://github.com/XiaoYuanJun-zy/MCDubber.comで公開されている。
関連論文リスト
- Text-based Talking Video Editing with Cascaded Conditional Diffusion [31.194060914767896]
テキストベースのトーキングヘッドビデオ編集は、音声ビデオのセグメントを効率的に挿入、削除、置換することを目的としている。
これまでの作業では、会話ビデオのトレーニングデータの数分と、カスタマイズされた会話ビデオ編集のための高価なテストタイムの最適化が必要だった。
本稿では,音声から高密度ランドマーク運動,動画への動きの2段階からなる,効率的なケースケード条件拡散に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T10:55:19Z) - MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation [43.35578187209748]
Foley AudioはAIGC(AI- generated Content)のランドスケープにおいて大きな課題に直面している。
現在のテクスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存している。
MINT(Multi-modal Image and Narrative Text Dubbing dataset)を導入する。
MINTは、文学的なストーリーオーディオブックのダビング、イメージ/サイレントビデオダビングといったメインストリームのダビングタスクを強化するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T10:47:36Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。