論文の概要: FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes
- arxiv url: http://arxiv.org/abs/2601.14777v1
- Date: Wed, 21 Jan 2026 08:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.299334
- Title: FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes
- Title(参考訳): FunCineForge: 多様な映画シーンにおけるゼロショット映画ダビングのための統一データセットツールキットとモデル
- Authors: Jiaxuan Liu, Yang Xiang, Han Zhao, Xiangang Li, Zhenhua Ling,
- Abstract要約: FunCineForgeは、大規模なダビングデータセットのためのエンドツーエンド生産パイプラインと、さまざまな撮影シーン用に設計されたMLLMベースのダビングモデルで構成されている。
リッチアノテーションを用いた中国初のテレビダビングデータセットを構築し,その高品質性を実証する。
モノローグ,ナレーション,対話,マルチスピーカーシーンにおける実験により,我々のダビングモデルは音質,リップシンク,音色伝達,指示追従のSOTA手法より一貫して優れていた。
- 参考スコア(独自算出の注目度): 56.534404169212785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Movie dubbing is the task of synthesizing speech from scripts conditioned on video scenes, requiring accurate lip sync, faithful timbre transfer, and proper modeling of character identity and emotion. However, existing methods face two major limitations: (1) high-quality multimodal dubbing datasets are limited in scale, suffer from high word error rates, contain sparse annotations, rely on costly manual labeling, and are restricted to monologue scenes, all of which hinder effective model training; (2) existing dubbing models rely solely on the lip region to learn audio-visual alignment, which limits their applicability to complex live-action cinematic scenes, and exhibit suboptimal performance in lip sync, speech quality, and emotional expressiveness. To address these issues, we propose FunCineForge, which comprises an end-to-end production pipeline for large-scale dubbing datasets and an MLLM-based dubbing model designed for diverse cinematic scenes. Using the pipeline, we construct the first Chinese television dubbing dataset with rich annotations, and demonstrate the high quality of these data. Experiments across monologue, narration, dialogue, and multi-speaker scenes show that our dubbing model consistently outperforms SOTA methods in audio quality, lip sync, timbre transfer, and instruction following. Code and demos are available at https://anonymous.4open.science/w/FunCineForge.
- Abstract(参考訳): 映画のダビングは、ビデオシーンで条件付けられたスクリプトから音声を合成し、正確なリップシンク、忠実な音色伝達、キャラクターのアイデンティティと感情の適切なモデリングを必要とする。
しかし,既存の手法では,(1)高品質なマルチモーダル・ダビングデータセットは大規模に制限され,語句誤り率に悩まされ,疎アノテーションを包含し,手作業によるラベリングに頼り,モノローグシーンに制限されるため,効果的なモデルトレーニングを妨げている。(2)既存のダビングモデルは,リップ領域に依存して,複雑なライブ・アクション・シネマティック・シーンに適用可能であり,リップシンク,音声品質,感情表現の亜最適なパフォーマンスを示す。
これらの課題に対処するために,大規模なダビングデータセットのためのエンドツーエンド生産パイプラインと,さまざまな撮影シーン用に設計されたMLLMに基づくダビングモデルを備えるFunCineForgeを提案する。
パイプラインを用いて、リッチアノテーションを用いた最初の中国語テレビダビングデータセットを構築し、これらのデータの品質を実証する。
モノローグ,ナレーション,対話,マルチスピーカーシーンにおける実験により,我々のダビングモデルは音質,リップシンク,音色伝達,指示追従のSOTA手法より一貫して優れていた。
コードとデモはhttps://anonymous.4open.science/w/FunCineForgeで公開されている。
関連論文リスト
- MM-MovieDubber: Towards Multi-Modal Learning for Multi-Modal Movie Dubbing [12.954750400557344]
映画ダビングのためのマルチモーダル生成フレームワークを提案する。
マルチモーダル入力で導かれる大きな音声生成モデルを用いて高品質なダビングを生成する。
その結果, 最先端(SOTA)法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-22T06:23:05Z) - VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models [43.1613638989795]
テキストと顔の手がかりから高品質な音声を合成する,ビデオダビングの自動化手法であるVoiceCraft-Dubを提案する。
この課題は、映画製作、マルチメディア制作、音声障害者支援に広く応用されている。
論文 参考訳(メタデータ) (2025-04-03T08:24:47Z) - DeepDubber-V1: Towards High Quality and Dialogue, Narration, Monologue Adaptive Movie Dubbing Via Multi-Modal Chain-of-Thoughts Reasoning Guidance [4.452513686760606]
異なるダビングスタイルへの適応、対話、ナレーション、モノローグを効果的に扱うといった重要な側面は、十分に研究されていない。
この課題に対処するために,マルチモーダルな大規模言語モデルの枠組みを提案する。
マルチモーダル条件で導かれる大きな音声生成モデルを通して高品質なダビングを生成する。
論文 参考訳(メタデータ) (2025-03-31T01:51:09Z) - Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing [60.38045088180188]
高精度な韻律アライメントで高品質なダビング生成を実現するために,音響プロソディディスト2段法を提案する。
我々は、異なる映画における視覚領域シフトの影響を低減するために、ドメイン内感情分析モジュールを組み込んだ。
提案手法は,2つのベンチマークにおける最先端モデルに対して良好に機能する。
論文 参考訳(メタデータ) (2025-03-15T08:25:57Z) - StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。