Fugu-MT 論文翻訳(概要): VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing

論文の概要: VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing

arxiv url: http://arxiv.org/abs/2211.16934v1
Date: Wed, 30 Nov 2022 12:09:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 15:38:18.231343
Title: VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing
Title（参考訳）: VideoDubber:ビデオダビングのための音声認識長制御による機械翻訳
Authors: Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei He, Sheng Zhao, Arul Menezes, Jiang Bian
Abstract要約: ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
参考スコア（独自算出の注目度）: 53.01742480812735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video dubbing aims to translate the original speech in a film or television program into the speech in a target language, which can be achieved with a cascaded system consisting of speech recognition, machine translation and speech synthesis. To ensure the translated speech to be well aligned with the corresponding video, the length/duration of the translated speech should be as close as possible to that of the original speech, which requires strict length control. Previous works usually control the number of words or characters generated by the machine translation model to be similar to the source sentence, without considering the isochronicity of speech as the speech duration of words/characters in different languages varies. In this paper, we propose a machine translation system tailored for the task of video dubbing, which directly considers the speech duration of each token in translation, to match the length of source and target speech. Specifically, we control the speech length of generated sentence by guiding the prediction of each word with the duration information, including the speech duration of itself as well as how much duration is left for the remaining words. We design experiments on four language directions (German -> English, Spanish -> English, Chinese <-> English), and the results show that the proposed method achieves better length control ability on the generated speech than baseline methods. To make up the lack of real-world datasets, we also construct a real-world test set collected from films to provide comprehensive evaluations on the video dubbing task.
Abstract（参考訳）: ビデオダビングは、映画やテレビ番組の原音声をターゲット言語で音声に変換することを目的としており、音声認識、機械翻訳、音声合成からなるカスケードシステムによって実現されている。翻訳音声が対応するビデオと適切に一致するようにするためには、翻訳音声の長さ/順は、厳密な長さ制御を必要とする元の音声にできるだけ近いべきである。それまでの著作では、機械翻訳モデルが生成した語数や文字は、異なる言語の単語/文字の発話時間が異なるため、発話の等時性を考慮せずに、原文と類似している。本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。このシステムでは,翻訳中の各トークンの発話時間を直接考慮し,ソースとターゲットの音声の長さを一致させる。具体的には、各単語の予測を持続時間情報とともに導くことにより、生成した文の音声長を制御し、残りの単語にどれだけの期間が残されているかを制御する。提案手法は, 4つの言語方向(ドイツ語->英語,スペイン語->英語,中国語->英語)で実験を行い, 提案手法がベースライン法よりも, 生成した音声の長手制御能力を向上させることを示す。実世界のデータセットの欠如を補うために,映画から収集した実世界のテストセットを構築し,映像ダビングタスクの包括的評価を行う。

関連論文リスト

Length Aware Speech Translation for Video Dubbing [27.946422755130868]
本研究では, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, また、1つの復号パスで異なる長さの翻訳を生成する効率的なアプローチである長さ認識ビームサーチ(LABS)も導入する。
論文参考訳（メタデータ） (2025-05-31T23:01:50Z)
Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing [15.134076873312809]
言語間ダビングシステムは、継続時間、話者識別、発話速度といった重要な特徴を保ちながら、ある言語から別の言語に音声を翻訳する。本稿では,時間順変換が可能な時間長制御付き離散拡散に基づく音声-単位間翻訳モデルを提案する。次に,予測単位とソースの同一性に基づいて,条件付きフローマッチングモデルを用いて音声を合成する。
論文参考訳（メタデータ） (2025-05-27T08:43:28Z)
Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文参考訳（メタデータ） (2024-12-24T18:56:46Z)
Isochrony-Controlled Speech-to-Text Translation: A study on translating from Sino-Tibetan to Indo-European Languages [33.5772006275197]
エンドツーエンド音声翻訳(ST)は、ソース言語音声を直接ターゲット言語テキストに変換する。多くのSTアプリケーションは、翻訳期間がソースオーディオの長さと一致することを保証するために、厳密な長さ制御を必要とする。本稿では,シーケンス・ツー・シーケンスSTモデルの時間的アライメント特性の改善について述べる。
論文参考訳（メタデータ） (2024-11-11T21:39:21Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文参考訳（メタデータ） (2023-12-23T08:45:57Z)
Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文参考訳（メタデータ） (2023-05-22T16:36:04Z)
Jointly Optimizing Translations and Speech Timing to Improve Isochrony in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文参考訳（メタデータ） (2023-02-25T04:23:25Z)
Large-scale multilingual audio visual dubbing [31.43873011591989]
本稿では,大規模オーディオビジュアル翻訳とダビングのためのシステムについて述べる。ソース言語の音声内容はテキストに書き起こされ、翻訳され、ターゲット言語音声に自動的に合成される。視覚内容は、翻訳された音声と一致するように、話者の唇の動きを合成することにより変換される。
論文参考訳（メタデータ） (2020-11-06T18:58:15Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)
From Speech-to-Speech Translation to Automatic Dubbing [28.95595497865406]
自動ダビングを行うために,音声から音声への翻訳パイプラインの拡張を提案する。本アーキテクチャでは,所望の長さの出力を生成するニューラル機械翻訳,元の音声セグメントとの韻律的アライメント,各発話の持続時間を微調整したニューラルテキスト・トゥ・音声を特徴とする。
論文参考訳（メタデータ） (2020-01-19T07:03:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。