論文の概要: Towards Film-Making Production Dialogue, Narration, Monologue Adaptive Moving Dubbing Benchmarks
- arxiv url: http://arxiv.org/abs/2505.01450v1
- Date: Wed, 30 Apr 2025 02:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.11704
- Title: Towards Film-Making Production Dialogue, Narration, Monologue Adaptive Moving Dubbing Benchmarks
- Title(参考訳): 映画製作対話, ナレーション, モノローグ適応移動ベンチマーク
- Authors: Chaoyi Wang, Junjie Zheng, Zihao Chen, Shiyu Xia, Chaofan Ding, Xiaohao Zhang, Xi Tao, Xiaoming He, Xinhan Di,
- Abstract要約: アダプティブ・ダビングベンチマーク(TA-Dubbings)は、映画ダビングにおける対話、ナレーション、モノローグ、アクターに適応することで映画製作を改善するために設計された。
1) 包括次元: TA-Dubbingは映画ダビングの様々な次元をカバーし、映画理解と音声生成の両方のメトリクス評価を取り入れている。
- 参考スコア(独自算出の注目度): 6.71206005420634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Movie dubbing has advanced significantly, yet assessing the real-world effectiveness of these models remains challenging. A comprehensive evaluation benchmark is crucial for two key reasons: 1) Existing metrics fail to fully capture the complexities of dialogue, narration, monologue, and actor adaptability in movie dubbing. 2) A practical evaluation system should offer valuable insights to improve movie dubbing quality and advancement in film production. To this end, we introduce Talking Adaptive Dubbing Benchmarks (TA-Dubbing), designed to improve film production by adapting to dialogue, narration, monologue, and actors in movie dubbing. TA-Dubbing offers several key advantages: 1) Comprehensive Dimensions: TA-Dubbing covers a variety of dimensions of movie dubbing, incorporating metric evaluations for both movie understanding and speech generation. 2) Versatile Benchmarking: TA-Dubbing is designed to evaluate state-of-the-art movie dubbing models and advanced multi-modal large language models. 3) Full Open-Sourcing: We fully open-source TA-Dubbing at https://github.com/woka- 0a/DeepDubber- V1 including all video suits, evaluation methods, annotations. We also continuously integrate new movie dubbing models into the TA-Dubbing leaderboard at https://github.com/woka- 0a/DeepDubber-V1 to drive forward the field of movie dubbing.
- Abstract(参考訳): 映画のダビングは大幅に進歩しているが、これらのモデルの実際の有効性を評価することは依然として困難である。
総合評価ベンチマークは2つの主要な理由において重要である。
1)既存のメトリクスは,映画ダビングにおける対話,ナレーション,モノローグ,アクター適応性の複雑さを完全に把握できない。
2) 実用評価システムでは, フィルムのダビング品質の向上と, フィルムの製作の進歩について, 貴重な知見を提供する必要がある。
そこで本研究では,映画ダビングにおける対話,ナレーション,モノローグ,アクターに適応させることにより,映画製作を改善するためのトーク適応ダビングベンチマーク(TA-Dubbings)を提案する。
TA-Dubbingにはいくつかの利点がある。
1) 包括的次元: TA-Dubbingは,映画理解と音声生成の両面での計測評価を取り入れた,映画ダビングの様々な次元をカバーする。
2)Versatile Benchmarking: TA-Dubbingは最先端の映画ダビングモデルと高度なマルチモーダル大言語モデルを評価するために設計されている。
3) 完全なオープンソース TA-Dubbing at https://github.com/woka-0a/DeepDubber-V1には、すべてのビデオスーツ、評価方法、アノテーションが含まれています。
我々はまた、新しい映画ダビングモデルを https://github.com/woka-0a/DeepDubber-V1でTA-Dubbingリーダーボードに統合し、映画ダビングの分野を前進させる。
関連論文リスト
- DeepDubber-V1: Towards High Quality and Dialogue, Narration, Monologue Adaptive Movie Dubbing Via Multi-Modal Chain-of-Thoughts Reasoning Guidance [4.452513686760606]
異なるダビングスタイルへの適応、対話、ナレーション、モノローグを効果的に扱うといった重要な側面は、十分に研究されていない。
この課題に対処するために,マルチモーダルな大規模言語モデルの枠組みを提案する。
マルチモーダル条件で導かれる大きな音声生成モデルを通して高品質なダビングを生成する。
論文 参考訳(メタデータ) (2025-03-31T01:51:09Z) - Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing [60.38045088180188]
高精度な韻律アライメントで高品質なダビング生成を実現するために,音響プロソディディスト2段法を提案する。
我々は、異なる映画における視覚領域シフトの影響を低減するために、ドメイン内感情分析モジュールを組み込んだ。
提案手法は,2つのベンチマークにおける最先端モデルに対して良好に機能する。
論文 参考訳(メタデータ) (2025-03-15T08:25:57Z) - MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation [43.35578187209748]
Foley AudioはAIGC(AI- generated Content)のランドスケープにおいて大きな課題に直面している。
現在のテクスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存している。
MINT(Multi-modal Image and Narrative Text Dubbing dataset)を導入する。
MINTは、文学的なストーリーオーディオブックのダビング、イメージ/サイレントビデオダビングといったメインストリームのダビングタスクを強化するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T10:47:36Z) - StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Prosodic Alignment for off-screen automatic dubbing [17.7813193467431]
自動ダビングの目的は、音声視覚的コヒーレンスを達成しつつ、音声から音声への翻訳を行うことである。
これはイソクロニー、すなわち、その韻律構造をフレーズとポーズに合わせることによって、元の音声を翻訳する。
我々は、制約の少ないオフスクリーンダビングに対処するために、韻律アライメントモデルを拡張します。
論文 参考訳(メタデータ) (2022-04-06T01:02:58Z) - Neural Dubber: Dubbing for Silent Videos According to Scripts [22.814626504851752]
本稿では,新しい自動ビデオダビング(AVD)タスクを解決するニューラルネットワークモデルであるNeural Dubberを提案する。
Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声モデルである。
実験により、ニューラルダバーはビデオによって合成音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成する。
論文 参考訳(メタデータ) (2021-10-15T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。