論文の概要: DeepDubber-V1: Towards High Quality and Dialogue, Narration, Monologue Adaptive Movie Dubbing Via Multi-Modal Chain-of-Thoughts Reasoning Guidance
- arxiv url: http://arxiv.org/abs/2503.23660v1
- Date: Mon, 31 Mar 2025 01:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:27.609296
- Title: DeepDubber-V1: Towards High Quality and Dialogue, Narration, Monologue Adaptive Movie Dubbing Via Multi-Modal Chain-of-Thoughts Reasoning Guidance
- Title(参考訳): DeepDubber-V1:ハイクオリティと対話、ナレーション、モノローグ対応映画ダビング
- Authors: Junjie Zheng, Zihao Chen, Chaofan Ding, Xinhan Di,
- Abstract要約: 異なるダビングスタイルへの適応、対話、ナレーション、モノローグを効果的に扱うといった重要な側面は、十分に研究されていない。
この課題に対処するために,マルチモーダルな大規模言語モデルの枠組みを提案する。
マルチモーダル条件で導かれる大きな音声生成モデルを通して高品質なダビングを生成する。
- 参考スコア(独自算出の注目度): 4.452513686760606
- License:
- Abstract: Current movie dubbing technology can generate the desired voice from a given speech prompt, ensuring good synchronization between speech and visuals while accurately conveying the intended emotions. However, in movie dubbing, key aspects such as adapting to different dubbing styles, handling dialogue, narration, and monologue effectively, and understanding subtle details like the age and gender of speakers, have not been well studied. To address this challenge, we propose a framework of multi-modal large language model. First, it utilizes multimodal Chain-of-Thought (CoT) reasoning methods on visual inputs to understand dubbing styles and fine-grained attributes. Second, it generates high-quality dubbing through large speech generation models, guided by multimodal conditions. Additionally, we have developed a movie dubbing dataset with CoT annotations. The evaluation results demonstrate a performance improvement over state-of-the-art methods across multiple datasets. In particular, for the evaluation metrics, the SPK-SIM and EMO-SIM increases from 82.48% to 89.74%, 66.24% to 78.88% for dubbing setting 2.0 on V2C Animation dataset, LSE-D and MCD-SL decreases from 14.79 to 14.63, 5.24 to 4.74 for dubbing setting 2.0 on Grid dataset, SPK-SIM increases from 64.03 to 83.42 and WER decreases from 52.69% to 23.20% for initial reasoning setting on proposed CoT-Movie-Dubbing dataset in the comparison with the state-of-the art models.
- Abstract(参考訳): 現在の映画ダビング技術は、所定の音声プロンプトから所望の音声を生成し、意図した感情を正確に伝達しながら、音声と視覚の良好な同期を確保することができる。
しかし、映画ダビングにおいては、異なるダビングスタイルに適応する、対話、ナレーション、モノローグを効果的に扱う、話者の年齢や性別などの微妙な詳細を理解するといった重要な側面は十分に研究されていない。
この課題に対処するため,マルチモーダルな大規模言語モデルの枠組みを提案する。
まず、マルチモーダルなChain-of-Thought(CoT)推論手法を用いて、ダビングスタイルやきめ細かい属性を理解する。
第二に、マルチモーダル条件で導かれる大きな音声生成モデルを通して高品質なダビングを生成する。
さらに,CoTアノテーションを用いた映画ダビングデータセットを開発した。
評価結果は,複数のデータセットにまたがる最先端手法の性能向上を示す。
特に評価指標では、SPK-SIMとEMO-SIMは82.48%から89.74%、66.24%から78.88%に増加し、V2Cアニメーションデータセットでは2.0、LSE-DとMCD-SLは14.79から14.63、5.24から4.74に減少し、SPK-SIMは64.03から83.42に、WERは提案されたCoT-Movie-Dubbingデータセットでは52.69%から23.20%に減少する。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。
M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。
SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文 参考訳(メタデータ) (2024-06-18T22:44:50Z) - MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation [43.35578187209748]
Foley AudioはAIGC(AI- generated Content)のランドスケープにおいて大きな課題に直面している。
現在のテクスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存している。
MINT(Multi-modal Image and Narrative Text Dubbing dataset)を導入する。
MINTは、文学的なストーリーオーディオブックのダビング、イメージ/サイレントビデオダビングといったメインストリームのダビングタスクを強化するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T10:47:36Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of
Video [3.2995359570845912]
Anim-400Kは、日本語と英語で425Kを超えるアニメーションビデオセグメントのデータセットである。
自動ダビング、同時翻訳、ガイド付きビデオ要約、ジャンル/スタイル分類など、様々なビデオ関連タスクをサポートする。
論文 参考訳(メタデータ) (2024-01-10T18:32:38Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - V2C: Visual Voice Cloning [55.55301826567474]
我々はVisual Voice Cloning (V2C) という新しいタスクを提案する。
V2Cは、参照音声によって特定された所望の音声と、参照ビデオによって特定された所望の感情の両方で、テキストの段落を音声に変換する。
私たちのデータセットには、さまざまなジャンルをカバーする10,217本のアニメーション映画クリップが含まれています。
論文 参考訳(メタデータ) (2021-11-25T03:35:18Z) - Neural Dubber: Dubbing for Silent Videos According to Scripts [22.814626504851752]
本稿では,新しい自動ビデオダビング(AVD)タスクを解決するニューラルネットワークモデルであるNeural Dubberを提案する。
Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声モデルである。
実験により、ニューラルダバーはビデオによって合成音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成する。
論文 参考訳(メタデータ) (2021-10-15T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。