論文の概要: Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing
- arxiv url: http://arxiv.org/abs/2505.20899v1
- Date: Tue, 27 May 2025 08:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.524216
- Title: Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing
- Title(参考訳): Dub-S2ST:シームレスダビングのためのテキストレス音声音声合成
- Authors: Jeongsoo Choi, Jaehun Kim, Joon Son Chung,
- Abstract要約: 言語間ダビングシステムは、継続時間、話者識別、発話速度といった重要な特徴を保ちながら、ある言語から別の言語に音声を翻訳する。
本稿では,時間順変換が可能な時間長制御付き離散拡散に基づく音声-単位間翻訳モデルを提案する。
次に,予測単位とソースの同一性に基づいて,条件付きフローマッチングモデルを用いて音声を合成する。
- 参考スコア(独自算出の注目度): 15.134076873312809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a cross-lingual dubbing system that translates speech from one language to another while preserving key characteristics such as duration, speaker identity, and speaking speed. Despite the strong translation quality of existing speech translation approaches, they often overlook the transfer of speech patterns, leading to mismatches with source speech and limiting their suitability for dubbing applications. To address this, we propose a discrete diffusion-based speech-to-unit translation model with explicit duration control, enabling time-aligned translation. We then synthesize speech based on the predicted units and source identity with a conditional flow matching model. Additionally, we introduce a unit-based speed adaptation mechanism that guides the translation model to produce speech at a rate consistent with the source, without relying on any text. Extensive experiments demonstrate that our framework generates natural and fluent translations that align with the original speech's duration and speaking pace, while achieving competitive translation performance.
- Abstract(参考訳): 本稿では,音声の持続時間,話者識別,発話速度といった重要な特徴を保ちながら,ある言語から別の言語に音声を翻訳する言語間ダビングシステムを提案する。
既存の音声翻訳アプローチの強い翻訳品質にもかかわらず、彼らはしばしば音声パターンの転送を見落とし、ソース音声とミスマッチし、ダビングアプリケーションに適していることを制限した。
そこで本研究では,時間順の翻訳を可能にするために,時間長を明示的に制御した離散拡散に基づく音声-単位間翻訳モデルを提案する。
次に,予測単位とソースの同一性に基づいて,条件付きフローマッチングモデルを用いて音声を合成する。
さらに,テキストに頼らずに,単位ベースの速度適応機構を導入し,音源と一致した速度で音声を生成する。
大規模な実験により,本フレームワークは,原音声の持続時間と発声速度とを一致させながら,競争力のある翻訳性能を達成しつつ,自然かつ流動的な翻訳を生成できることが実証された。
関連論文リスト
- High-Fidelity Simultaneous Speech-To-Speech Translation [75.69884829562591]
本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。
Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
論文 参考訳(メタデータ) (2025-02-05T17:18:55Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。