論文の概要: Prosody-Aware Neural Machine Translation for Dubbing
- arxiv url: http://arxiv.org/abs/2112.08548v1
- Date: Thu, 16 Dec 2021 01:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 07:31:21.069833
- Title: Prosody-Aware Neural Machine Translation for Dubbing
- Title(参考訳): ダビングのための韻律対応ニューラルマシン翻訳
- Authors: Derek Tam, Surafel M. Lakew, Yogesh Virkar, Prashant Mathur, Marcello
Federico
- Abstract要約: 本稿では, ダビングに適した翻訳文を生成することを目的とした韻律対応機械翻訳の課題について紹介する。
音声文のダビングには、タイミング情報を保持するために、ソースの韻律構造だけでなく、コンテンツも対象言語に転送する必要がある。
本稿では,ニューラルマシン翻訳に韻律情報を統合する暗黙的かつ明示的なモデリング手法を提案する。
- 参考スコア(独自算出の注目度): 9.49303003480503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the task of prosody-aware machine translation which aims at
generating translations suitable for dubbing. Dubbing of a spoken sentence
requires transferring the content as well as the prosodic structure of the
source into the target language to preserve timing information. Practically,
this implies correctly projecting pauses from the source to the target and
ensuring that target speech segments have roughly the same duration of the
corresponding source segments. In this work, we propose an implicit and
explicit modeling approaches to integrate prosody information into neural
machine translation. Experiments on English-German/French with automatic
metrics show that the simplest of the considered approaches works best. Results
are confirmed by human evaluations of translations and dubbed videos.
- Abstract(参考訳): ダビングに適した翻訳を生成することを目的とした韻律対応機械翻訳の課題を紹介する。
音声文のダビングには、タイミング情報を保持するために、ソースの韻律構造だけでなく、コンテンツも対象言語に転送する必要がある。
実際これは、ソースからターゲットへのポーズを正しく投影し、ターゲットの音声セグメントが対応するソースセグメントのほぼ同じ持続時間であることを保証することを意味する。
本研究では,韻律情報をニューラルマシン翻訳に組み込む暗黙的かつ明示的なモデリング手法を提案する。
自動メトリクスを用いた英語とドイツ語/フランス語の実験は、最も単純なアプローチが最適であることを示している。
結果は翻訳とビデオの人間による評価によって確認される。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Improving Isochronous Machine Translation with Target Factors and
Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。
また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文 参考訳(メタデータ) (2023-05-22T16:36:04Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - Direct Speech-to-speech Translation without Textual Annotation using
Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。
Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-12T10:03:10Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - "Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks [20.837515947519524]
リンクされたウィキペディアページの最初の文とタイトル、およびクロスリンガル画像キャプションは、二言語辞書を抽出し、ウィキペディアからパラレルテキストをマイニングするためのクロスリンガル単語埋め込みを抽出するシードパラレルデータのための強力な信号である。
画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。
アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
論文 参考訳(メタデータ) (2021-04-16T21:49:12Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。