論文の概要: PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing
- arxiv url: http://arxiv.org/abs/2604.09111v3
- Date: Tue, 14 Apr 2026 01:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.233887
- Title: PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing
- Title(参考訳): PS-TTS:自然な自動ダビングを実現するためのテキスト音声合成
- Authors: Changi Hong, Yoonah Song, Hwayoung Park, Chaewoon Bang, Dayeon Gu, Do Hyun Lee, Hong Kook Kim,
- Abstract要約: 本稿では,翻訳テキストをパラフレーズ化するADプロセスの同期手法を提案する。
我々は、翻訳されたテキストを言語モデルで表現することで、アイソクロニーを実現する。
第2に、トレーニングデータから測定した母音距離の局所的なコストで動的時間ワープ(DTW)を利用するPSを導入し、ターゲットテキストが原母音に似た発音で母音を構成するようにした。
第三に、このアプローチをPSCometに拡張し、意味を良く保つために意味的および音声的類似性を共同で検討する。
- 参考スコア(独自算出の注目度): 2.374660957323975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, artificial intelligence-based dubbing technology has advanced, enabling automated dubbing (AD) to convert the source speech of a video into target speech in different languages. However, natural AD still faces synchronization challenges such as duration and lip-synchronization (lip-sync), which are crucial for preserving the viewer experience. Therefore, this paper proposes a synchronization method for AD processes that paraphrases translated text, comprising two steps: isochrony for timing constraints and phonetic synchronization (PS) to preserve lip-sync. First, we achieve isochrony by paraphrasing the translated text with a language model, ensuring the target speech duration matches that of the source speech. Second, we introduce PS, which employs dynamic time warping (DTW) with local costs of vowel distances measured from training data so that the target text composes vowels with pronunciations similar to source vowels. Third, we extend this approach to PSComet, which jointly considers semantic and phonetic similarity to preserve meaning better. The proposed methods are incorporated into text-to-speech systems, PS-TTS and PS-Comet TTS. The performance evaluation using Korean and English lip-reading datasets and a voice-actor dubbing dataset demonstrates that both systems outperform TTS without PS on several objective metrics and outperform voice actors in Korean-to-English and English-to-Korean dubbing. We extend the experiments to French, testing all pairs among these languages to evaluate cross-linguistic applicability. Across all language pairs, PS-Comet performed best, balancing lip-sync accuracy with semantic preservation, confirming that PS-Comet achieves more accurate lip-sync with semantic preservation than PS alone.
- Abstract(参考訳): 近年、人工知能に基づくダビング技術が進歩し、ビデオのソース音声を異なる言語でターゲット音声に変換する自動ダビング(AD)が可能になった。
しかし、自然のADは継続時間やリップ同期(lip-sync)といった同期の課題に直面している。
そこで本研究では,翻訳テキストをパラフレーズで表現するADプロセスの同期手法を提案する。
まず、翻訳されたテキストを言語モデルで表現し、対象の発話期間を元の音声と一致させることで、同調性を実現する。
第2に、トレーニングデータから測定した母音距離の局所的なコストで動的時間ワープ(DTW)を利用するPSを導入し、ターゲットテキストが原母音に似た発音で母音を構成するようにした。
第三に、このアプローチをPSCometに拡張し、意味を良く保つために意味的および音声的類似性を共同で検討する。
提案手法は,音声合成システム,PS-TTS,PS-Comet TTSに組み込まれている。
韓国語と英語の口唇読取データセットと音声アクターダビングデータセットを用いた性能評価の結果,PSを使わずにTTSより優れ,韓国語と英語と韓国語によるダビングでは音声アクターより優れていた。
実験をフランス語に拡張し、これらの言語間の全てのペアをテストし、言語間適用性を評価する。
全ての言語ペアにおいて、PS-Cometは、PS単独よりも正確にリップシンクの精度と意味保存のバランスをとり、PS-Cometが意味保存よりも正確なリップシンクを実現していることを確認した。
関連論文リスト
- SyncVoice: Towards Video Dubbing with Vision-Augmented Pretrained TTS Model [34.874153953305346]
ビデオダビングは、視覚内容と時間的に正確に一致した高忠実度音声を生成することを目的としている。
既存の手法は、音声の自然さと音声と視覚の同期の限界に悩まされている。
我々は、事前訓練されたテキスト音声(TTS)モデルに基づいて構築された、ヴィジュアライズされたビデオダビングフレームワークSyncVoiceを提案する。
論文 参考訳(メタデータ) (2025-11-23T16:51:05Z) - Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing [15.134076873312809]
言語間ダビングシステムは、継続時間、話者識別、発話速度といった重要な特徴を保ちながら、ある言語から別の言語に音声を翻訳する。
本稿では,時間順変換が可能な時間長制御付き離散拡散に基づく音声-単位間翻訳モデルを提案する。
次に,予測単位とソースの同一性に基づいて,条件付きフローマッチングモデルを用いて音声を合成する。
論文 参考訳(メタデータ) (2025-05-27T08:43:28Z) - SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。
SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文 参考訳(メタデータ) (2025-02-16T12:14:17Z) - High-Fidelity Simultaneous Speech-To-Speech Translation [75.69884829562591]
本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。
Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
論文 参考訳(メタデータ) (2025-02-05T17:18:55Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - Align, Write, Re-order: Explainable End-to-End Speech Translation via
Operation Sequence Generation [37.48971774827332]
後から再注文する方法を記憶しながら,STトークンをアウト・オブ・オーダーで生成することを提案する。
本研究は, モノトニック文字起こしと非モノトニック翻訳を可能にする2種類の操作シーケンスについて検討する。
論文 参考訳(メタデータ) (2022-11-11T02:29:28Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。