論文の概要: VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing
- arxiv url: http://arxiv.org/abs/2211.16934v1
- Date: Wed, 30 Nov 2022 12:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:38:18.231343
- Title: VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing
- Title(参考訳): VideoDubber:ビデオダビングのための音声認識長制御による機械翻訳
- Authors: Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei
He, Sheng Zhao, Arul Menezes, Jiang Bian
- Abstract要約: ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
- 参考スコア(独自算出の注目度): 53.01742480812735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video dubbing aims to translate the original speech in a film or television
program into the speech in a target language, which can be achieved with a
cascaded system consisting of speech recognition, machine translation and
speech synthesis. To ensure the translated speech to be well aligned with the
corresponding video, the length/duration of the translated speech should be as
close as possible to that of the original speech, which requires strict length
control. Previous works usually control the number of words or characters
generated by the machine translation model to be similar to the source
sentence, without considering the isochronicity of speech as the speech
duration of words/characters in different languages varies. In this paper, we
propose a machine translation system tailored for the task of video dubbing,
which directly considers the speech duration of each token in translation, to
match the length of source and target speech. Specifically, we control the
speech length of generated sentence by guiding the prediction of each word with
the duration information, including the speech duration of itself as well as
how much duration is left for the remaining words. We design experiments on
four language directions (German -> English, Spanish -> English, Chinese <->
English), and the results show that the proposed method achieves better length
control ability on the generated speech than baseline methods. To make up the
lack of real-world datasets, we also construct a real-world test set collected
from films to provide comprehensive evaluations on the video dubbing task.
- Abstract(参考訳): ビデオダビングは、映画やテレビ番組の原音声をターゲット言語で音声に変換することを目的としており、音声認識、機械翻訳、音声合成からなるカスケードシステムによって実現されている。
翻訳音声が対応するビデオと適切に一致するようにするためには、翻訳音声の長さ/順は、厳密な長さ制御を必要とする元の音声にできるだけ近いべきである。
それまでの著作では、機械翻訳モデルが生成した語数や文字は、異なる言語の単語/文字の発話時間が異なるため、発話の等時性を考慮せずに、原文と類似している。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。このシステムでは,翻訳中の各トークンの発話時間を直接考慮し,ソースとターゲットの音声の長さを一致させる。
具体的には、各単語の予測を持続時間情報とともに導くことにより、生成した文の音声長を制御し、残りの単語にどれだけの期間が残されているかを制御する。
提案手法は, 4つの言語方向(ドイツ語->英語,スペイン語->英語,中国語->英語)で実験を行い, 提案手法がベースライン法よりも, 生成した音声の長手制御能力を向上させることを示す。
実世界のデータセットの欠如を補うために,映画から収集した実世界のテストセットを構築し,映像ダビングタスクの包括的評価を行う。
関連論文リスト
- TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Improving Isochronous Machine Translation with Target Factors and
Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。
また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文 参考訳(メタデータ) (2023-05-22T16:36:04Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - Creating Speech-to-Speech Corpus from Dubbed Series [8.21384946488751]
本稿では,音声合成コーパスを構築するための教師なし手法を提案する。
提案手法は,ビデオフレーム,音声認識,機械翻訳,ノイズフレーム除去アルゴリズムを利用して,両言語のセグメントをマッチングする。
私たちのパイプラインは17時間のペアセグメントを生成することができました。
論文 参考訳(メタデータ) (2022-03-07T18:52:48Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Large-scale multilingual audio visual dubbing [31.43873011591989]
本稿では,大規模オーディオビジュアル翻訳とダビングのためのシステムについて述べる。
ソース言語の音声内容はテキストに書き起こされ、翻訳され、ターゲット言語音声に自動的に合成される。
視覚内容は、翻訳された音声と一致するように、話者の唇の動きを合成することにより変換される。
論文 参考訳(メタデータ) (2020-11-06T18:58:15Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - From Speech-to-Speech Translation to Automatic Dubbing [28.95595497865406]
自動ダビングを行うために,音声から音声への翻訳パイプラインの拡張を提案する。
本アーキテクチャでは,所望の長さの出力を生成するニューラル機械翻訳,元の音声セグメントとの韻律的アライメント,各発話の持続時間を微調整したニューラルテキスト・トゥ・音声を特徴とする。
論文 参考訳(メタデータ) (2020-01-19T07:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。