論文の概要: VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing
- arxiv url: http://arxiv.org/abs/2211.16934v2
- Date: Tue, 5 Dec 2023 01:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 20:29:17.346939
- Title: VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing
- Title(参考訳): VideoDubber:ビデオダビングのための音声認識長制御による機械翻訳
- Authors: Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei
He, Sheng Zhao, Arul Menezes, Jiang Bian
- Abstract要約: ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
- 参考スコア(独自算出の注目度): 73.56970726406274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video dubbing aims to translate the original speech in a film or television
program into the speech in a target language, which can be achieved with a
cascaded system consisting of speech recognition, machine translation and
speech synthesis. To ensure the translated speech to be well aligned with the
corresponding video, the length/duration of the translated speech should be as
close as possible to that of the original speech, which requires strict length
control. Previous works usually control the number of words or characters
generated by the machine translation model to be similar to the source
sentence, without considering the isochronicity of speech as the speech
duration of words/characters in different languages varies. In this paper, we
propose a machine translation system tailored for the task of video dubbing,
which directly considers the speech duration of each token in translation, to
match the length of source and target speech. Specifically, we control the
speech length of generated sentence by guiding the prediction of each word with
the duration information, including the speech duration of itself as well as
how much duration is left for the remaining words. We design experiments on
four language directions (German -> English, Spanish -> English, Chinese <->
English), and the results show that the proposed method achieves better length
control ability on the generated speech than baseline methods. To make up the
lack of real-world datasets, we also construct a real-world test set collected
from films to provide comprehensive evaluations on the video dubbing task.
- Abstract(参考訳): ビデオダビングは、映画やテレビ番組の原音声をターゲット言語で音声に変換することを目的としており、音声認識、機械翻訳、音声合成からなるカスケードシステムによって実現されている。
翻訳音声が対応するビデオと適切に一致するようにするためには、翻訳音声の長さ/順は、厳密な長さ制御を必要とする元の音声にできるだけ近いべきである。
それまでの著作では、機械翻訳モデルが生成した語数や文字は、異なる言語の単語/文字の発話時間が異なるため、発話の等時性を考慮せずに、原文と類似している。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。このシステムでは,翻訳中の各トークンの発話時間を直接考慮し,ソースとターゲットの音声の長さを一致させる。
具体的には、各単語の予測を持続時間情報とともに導くことにより、生成した文の音声長を制御し、残りの単語にどれだけの期間が残されているかを制御する。
提案手法は, 4つの言語方向(ドイツ語->英語,スペイン語->英語,中国語->英語)で実験を行い, 提案手法がベースライン法よりも, 生成した音声の長手制御能力を向上させることを示す。
実世界のデータセットの欠如を補うために,映画から収集した実世界のテストセットを構築し,映像ダビングタスクの包括的評価を行う。
関連論文リスト
- Isochrony-Controlled Speech-to-Text Translation: A study on translating from Sino-Tibetan to Indo-European Languages [33.5772006275197]
エンドツーエンド音声翻訳(ST)は、ソース言語音声を直接ターゲット言語テキストに変換する。
多くのSTアプリケーションは、翻訳期間がソースオーディオの長さと一致することを保証するために、厳密な長さ制御を必要とする。
本稿では,シーケンス・ツー・シーケンスSTモデルの時間的アライメント特性の改善について述べる。
論文 参考訳(メタデータ) (2024-11-11T21:39:21Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Improving Isochronous Machine Translation with Target Factors and
Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。
また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文 参考訳(メタデータ) (2023-05-22T16:36:04Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - Large-scale multilingual audio visual dubbing [31.43873011591989]
本稿では,大規模オーディオビジュアル翻訳とダビングのためのシステムについて述べる。
ソース言語の音声内容はテキストに書き起こされ、翻訳され、ターゲット言語音声に自動的に合成される。
視覚内容は、翻訳された音声と一致するように、話者の唇の動きを合成することにより変換される。
論文 参考訳(メタデータ) (2020-11-06T18:58:15Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - From Speech-to-Speech Translation to Automatic Dubbing [28.95595497865406]
自動ダビングを行うために,音声から音声への翻訳パイプラインの拡張を提案する。
本アーキテクチャでは,所望の長さの出力を生成するニューラル機械翻訳,元の音声セグメントとの韻律的アライメント,各発話の持続時間を微調整したニューラルテキスト・トゥ・音声を特徴とする。
論文 参考訳(メタデータ) (2020-01-19T07:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。