論文の概要: Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing
- arxiv url: http://arxiv.org/abs/2302.12979v1
- Date: Sat, 25 Feb 2023 04:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 19:33:18.200617
- Title: Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing
- Title(参考訳): 自動ダビングにおける等時性向上のための共同翻訳と音声タイミングの最適化
- Authors: Alexandra Chronopoulou, Brian Thompson, Prashant Mathur, Yogesh
Virkar, Surafel M. Lakew, Marcello Federico
- Abstract要約: 生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
- 参考スコア(独自算出の注目度): 71.02335065794384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic dubbing (AD) is the task of translating the original speech in a
video into target language speech. The new target language speech should
satisfy isochrony; that is, the new speech should be time aligned with the
original video, including mouth movements, pauses, hand gestures, etc. In this
paper, we propose training a model that directly optimizes both the translation
as well as the speech duration of the generated translations. We show that this
system generates speech that better matches the timing of the original speech,
compared to prior work, while simplifying the system architecture.
- Abstract(参考訳): 自動ダビング(AD)は、ビデオ中の元の音声をターゲット言語に翻訳するタスクである。
新しいターゲット言語音声は、アイソクロニーを満たすべきである。つまり、新しいスピーチは、口の動き、ポーズ、手振りなど、元の動画に合わせた時間でなければならない。
本稿では,生成した翻訳文の翻訳時間と翻訳文の翻訳時間の両方を直接最適化するモデルを訓練する。
本システムでは,システムアーキテクチャを単純化しつつ,従来の作業に比べて,元の発話のタイミングに合致した音声を生成する。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Improving Isochronous Machine Translation with Target Factors and
Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。
また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文 参考訳(メタデータ) (2023-05-22T16:36:04Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Direct simultaneous speech to speech translation [29.958601064888132]
本稿では,最初の音声音声合成モデル(Simul-S2ST)を提案する。
モデルは、全音源の音声コンテンツを消費する前に、ターゲット音声の翻訳を生成することができる。
論文 参考訳(メタデータ) (2021-10-15T17:59:15Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Fluent and Low-latency Simultaneous Speech-to-Speech Translation with
Self-adaptive Training [40.71155396456831]
音声から音声への同時翻訳は広く有用であるが,極めて困難である。
ソース言語音声と並行してターゲット言語音声を生成する必要があるが、わずか数秒遅れている。
現在のアプローチは、話者がより速く話すときの遅延を徐々に蓄積し、話者がゆっくり話すときの不自然な停止を導入する。
そこで本稿では,翻訳の長さを柔軟に調整し,異なる音源の音声レートに対応する自己適応翻訳(SAT)を提案する。
論文 参考訳(メタデータ) (2020-10-20T06:02:15Z) - From Speech-to-Speech Translation to Automatic Dubbing [28.95595497865406]
自動ダビングを行うために,音声から音声への翻訳パイプラインの拡張を提案する。
本アーキテクチャでは,所望の長さの出力を生成するニューラル機械翻訳,元の音声セグメントとの韻律的アライメント,各発話の持続時間を微調整したニューラルテキスト・トゥ・音声を特徴とする。
論文 参考訳(メタデータ) (2020-01-19T07:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。