論文の概要: Prosodic Alignment for off-screen automatic dubbing
- arxiv url: http://arxiv.org/abs/2204.02530v1
- Date: Wed, 6 Apr 2022 01:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 00:48:49.330832
- Title: Prosodic Alignment for off-screen automatic dubbing
- Title(参考訳): オフスクリーン自動ダビングにおける韻律的アライメント
- Authors: Yogesh Virkar, Marcello Federico, Robert Enyedi, Roberto Barra-Chicote
- Abstract要約: 自動ダビングの目的は、音声視覚的コヒーレンスを達成しつつ、音声から音声への翻訳を行うことである。
これはイソクロニー、すなわち、その韻律構造をフレーズとポーズに合わせることによって、元の音声を翻訳する。
我々は、制約の少ないオフスクリーンダビングに対処するために、韻律アライメントモデルを拡張します。
- 参考スコア(独自算出の注目度): 17.7813193467431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of automatic dubbing is to perform speech-to-speech translation
while achieving audiovisual coherence. This entails isochrony, i.e.,
translating the original speech by also matching its prosodic structure into
phrases and pauses, especially when the speaker's mouth is visible. In previous
work, we introduced a prosodic alignment model to address isochrone or
on-screen dubbing. In this work, we extend the prosodic alignment model to also
address off-screen dubbing that requires less stringent synchronization
constraints. We conduct experiments on four dubbing directions - English to
French, Italian, German and Spanish - on a publicly available collection of TED
Talks and on publicly available YouTube videos. Empirical results show that
compared to our previous work the extended prosodic alignment model provides
significantly better subjective viewing experience on videos in which on-screen
and off-screen automatic dubbing is applied for sentences with speakers mouth
visible and not visible, respectively.
- Abstract(参考訳): 自動ドビングの目標は、視聴覚コヒーレンスを実現しながら音声から音声への翻訳を行うことである。
これは、その韻律構造を、特に話者の口が見える場合に、フレーズやポーズに合わせることによって、元のスピーチを翻訳する等時性を伴う。
前報では,アイソクロンやスクリーン上のダビングに対処する韻律アライメントモデルを導入した。
本研究では、同期制約を少なくするスクリーン外でのドッキングに対処するために、韻律アライメントモデルを拡張する。
我々は、TED TalksとYouTubeビデオの公開コレクションで、英語からフランス語、イタリア語、ドイツ語、スペイン語の4つのダビング方向の実験を行います。
実験結果から,前作に比べてプロソディックアライメントモデルの拡張は,発話の可視性や可視性のない文に対して,画面上と画面外の自動ドビングをそれぞれ適用したビデオにおける主観的視聴体験が有意に向上することが示された。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - Dubbing in Practice: A Large Scale Study of Human Localization With
Insights for Automatic Dubbing [6.26764826816895]
本研究では,人間がある言語から別の言語にビデオコンテンツをダビングする作業を行う方法について検討する。
我々は54のプロ制作タイトルから319.57時間のビデオコーパスを利用する。
論文 参考訳(メタデータ) (2022-12-23T04:12:52Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Neural Dubber: Dubbing for Silent Videos According to Scripts [22.814626504851752]
本稿では,新しい自動ビデオダビング(AVD)タスクを解決するニューラルネットワークモデルであるNeural Dubberを提案する。
Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声モデルである。
実験により、ニューラルダバーはビデオによって合成音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成する。
論文 参考訳(メタデータ) (2021-10-15T17:56:07Z) - Machine Translation Verbosity Control for Automatic Dubbing [11.85772502779967]
本稿では,機械翻訳出力の冗長性を制御する新しい手法を提案する。
実験では、公開データセットを使用して、英語のスピーチをフランス語、イタリア語、ドイツ語、スペイン語にダブします。
MT冗長性制御がビデオクリップの最終的な品質に与える影響を広範囲にわたる主観的テストで評価した。
論文 参考訳(メタデータ) (2021-10-08T01:19:10Z) - Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video [53.69956349097428]
未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
論文 参考訳(メタデータ) (2020-01-25T13:07:43Z) - From Speech-to-Speech Translation to Automatic Dubbing [28.95595497865406]
自動ダビングを行うために,音声から音声への翻訳パイプラインの拡張を提案する。
本アーキテクチャでは,所望の長さの出力を生成するニューラル機械翻訳,元の音声セグメントとの韻律的アライメント,各発話の持続時間を微調整したニューラルテキスト・トゥ・音声を特徴とする。
論文 参考訳(メタデータ) (2020-01-19T07:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。