論文の概要: MM-MovieDubber: Towards Multi-Modal Learning for Multi-Modal Movie Dubbing
- arxiv url: http://arxiv.org/abs/2505.16279v1
- Date: Thu, 22 May 2025 06:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.083355
- Title: MM-MovieDubber: Towards Multi-Modal Learning for Multi-Modal Movie Dubbing
- Title(参考訳): MM-MovieDubber:マルチモーダル映画ダビングのためのマルチモーダル学習を目指して
- Authors: Junjie Zheng, Zihao Chen, Chaofan Ding, Yunming Liang, Yihan Fan, Huan Yang, Lei Xie, Xinhan Di,
- Abstract要約: 映画ダビングのためのマルチモーダル生成フレームワークを提案する。
マルチモーダル入力で導かれる大きな音声生成モデルを用いて高品質なダビングを生成する。
その結果, 最先端(SOTA)法と比較して優れた性能を示した。
- 参考スコア(独自算出の注目度): 12.954750400557344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current movie dubbing technology can produce the desired speech using a reference voice and input video, maintaining perfect synchronization with the visuals while effectively conveying the intended emotions. However, crucial aspects of movie dubbing, including adaptation to various dubbing styles, effective handling of dialogue, narration, and monologues, as well as consideration of subtle details such as speaker age and gender, remain insufficiently explored. To tackle these challenges, we introduce a multi-modal generative framework. First, it utilizes a multi-modal large vision-language model (VLM) to analyze visual inputs, enabling the recognition of dubbing types and fine-grained attributes. Second, it produces high-quality dubbing using large speech generation models, guided by multi-modal inputs. Additionally, a movie dubbing dataset with annotations for dubbing types and subtle details is constructed to enhance movie understanding and improve dubbing quality for the proposed multi-modal framework. Experimental results across multiple benchmark datasets show superior performance compared to state-of-the-art (SOTA) methods. In details, the LSE-D, SPK-SIM, EMO-SIM, and MCD exhibit improvements of up to 1.09%, 8.80%, 19.08%, and 18.74%, respectively.
- Abstract(参考訳): 現在の映画ダビング技術は、参照音声と入力ビデオを用いて所望の音声を生成し、意図した感情を効果的に伝達しながら、視覚との完全な同期を維持することができる。
しかし, 様々なダビングスタイルへの適応, 対話, ナレーション, モノローグの効果的な扱い, 話者年齢や性別などの微妙な詳細を考慮し, 映画ダビングの重要な側面はいまだ不十分である。
これらの課題に対処するために、我々はマルチモーダルな生成フレームワークを導入する。
まず、マルチモーダルな大規模視覚言語モデル(VLM)を用いて視覚入力を分析し、ダビングタイプと微粒な属性の認識を可能にする。
第二に、マルチモーダル入力で導かれる大きな音声生成モデルを用いて、高品質なダビングを生成する。
さらに、映画理解を高め、マルチモーダルフレームワークのダビング品質を向上させるために、ダビング型アノテーションと微妙な詳細を含む映画ダビングデータセットを構築した。
複数のベンチマークデータセットに対する実験結果は、最先端(SOTA)手法よりも優れた性能を示している。
詳細では、LSE-D、SPK-SIM、EMO-SIM、MCDがそれぞれ1.09%、8.80%、19.08%、および18.74%の改善を示した。
関連論文リスト
- Towards Film-Making Production Dialogue, Narration, Monologue Adaptive Moving Dubbing Benchmarks [6.71206005420634]
アダプティブ・ダビングベンチマーク(TA-Dubbings)は、映画ダビングにおける対話、ナレーション、モノローグ、アクターに適応することで映画製作を改善するために設計された。
1) 包括次元: TA-Dubbingは映画ダビングの様々な次元をカバーし、映画理解と音声生成の両方のメトリクス評価を取り入れている。
論文 参考訳(メタデータ) (2025-04-30T02:36:18Z) - DeepDubber-V1: Towards High Quality and Dialogue, Narration, Monologue Adaptive Movie Dubbing Via Multi-Modal Chain-of-Thoughts Reasoning Guidance [4.452513686760606]
異なるダビングスタイルへの適応、対話、ナレーション、モノローグを効果的に扱うといった重要な側面は、十分に研究されていない。
この課題に対処するために,マルチモーダルな大規模言語モデルの枠組みを提案する。
マルチモーダル条件で導かれる大きな音声生成モデルを通して高品質なダビングを生成する。
論文 参考訳(メタデータ) (2025-03-31T01:51:09Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation [43.35578187209748]
Foley AudioはAIGC(AI- generated Content)のランドスケープにおいて大きな課題に直面している。
現在のテクスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存している。
MINT(Multi-modal Image and Narrative Text Dubbing dataset)を導入する。
MINTは、文学的なストーリーオーディオブックのダビング、イメージ/サイレントビデオダビングといったメインストリームのダビングタスクを強化するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T10:47:36Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。