論文の概要: Machine Translation Verbosity Control for Automatic Dubbing
- arxiv url: http://arxiv.org/abs/2110.03847v1
- Date: Fri, 8 Oct 2021 01:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 04:04:46.950188
- Title: Machine Translation Verbosity Control for Automatic Dubbing
- Title(参考訳): 自動ダビングのための機械翻訳バービシティ制御
- Authors: Surafel M. Lakew, Marcello Federico, Yue Wang, Cuong Hoang, Yogesh
Virkar, Roberto Barra-Chicote, Robert Enyedi
- Abstract要約: 本稿では,機械翻訳出力の冗長性を制御する新しい手法を提案する。
実験では、公開データセットを使用して、英語のスピーチをフランス語、イタリア語、ドイツ語、スペイン語にダブします。
MT冗長性制御がビデオクリップの最終的な品質に与える影響を広範囲にわたる主観的テストで評価した。
- 参考スコア(独自算出の注目度): 11.85772502779967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic dubbing aims at seamlessly replacing the speech in a video document
with synthetic speech in a different language. The task implies many
challenges, one of which is generating translations that not only convey the
original content, but also match the duration of the corresponding utterances.
In this paper, we focus on the problem of controlling the verbosity of machine
translation output, so that subsequent steps of our automatic dubbing pipeline
can generate dubs of better quality. We propose new methods to control the
verbosity of MT output and compare them against the state of the art with both
intrinsic and extrinsic evaluations. For our experiments we use a public data
set to dub English speeches into French, Italian, German and Spanish. Finally,
we report extensive subjective tests that measure the impact of MT verbosity
control on the final quality of dubbed video clips.
- Abstract(参考訳): 自動ダビングは、ビデオ文書中の音声を異なる言語で合成音声にシームレスに置き換えることを目的としている。
この課題は、元の内容を伝えるだけでなく、対応する発話の持続時間に合わせて翻訳を生成する、多くの課題を暗示している。
本稿では,機械翻訳出力の冗長性を制御する問題に焦点をあて,自動ダビングパイプラインのその後のステップにより,より高品質なダブを生成できるようにする。
そこで本研究では,mt出力の冗長性を制御する新しい手法を提案し,本質的評価と外来評価の両方との比較を行った。
実験には、英語のスピーチをフランス語、イタリア語、ドイツ語、スペイン語にダビングするための公開データセットを使用しました。
最後に,mt文節制御がビデオクリップの最終的な品質に与える影響を計測する広範な主観的テストを行った。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - SBAAM! Eliminating Transcript Dependency in Automatic Subtitling [23.444615994847947]
サブティットは,映像コンテンツのアクセシビリティ向上に重要な役割を担っている。
このプロセスを自動化しようとする過去の試みは、様々な学位、自動転写に依存していた。
自動字幕を生成することができる最初の直接モデルを導入する。
論文 参考訳(メタデータ) (2024-05-17T12:42:56Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - Dubbing in Practice: A Large Scale Study of Human Localization With
Insights for Automatic Dubbing [6.26764826816895]
本研究では,人間がある言語から別の言語にビデオコンテンツをダビングする作業を行う方法について検討する。
我々は54のプロ制作タイトルから319.57時間のビデオコーパスを利用する。
論文 参考訳(メタデータ) (2022-12-23T04:12:52Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Direct Speech Translation for Automatic Subtitling [17.095483965591267]
対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-27T06:47:42Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Prosody-Aware Neural Machine Translation for Dubbing [9.49303003480503]
本稿では, ダビングに適した翻訳文を生成することを目的とした韻律対応機械翻訳の課題について紹介する。
音声文のダビングには、タイミング情報を保持するために、ソースの韻律構造だけでなく、コンテンツも対象言語に転送する必要がある。
本稿では,ニューラルマシン翻訳に韻律情報を統合する暗黙的かつ明示的なモデリング手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:11:08Z) - Efficient Inference for Multilingual Neural Machine Translation [60.10996883354372]
我々は、その品質を劣化させることなく、多言語NMTを推論で高速にする方法をいくつか検討する。
実験により,浅いデコーダと語彙フィルタを組み合わせることで,翻訳品質を損なうことなく2倍以上の高速な推論が可能であることが確認された。
論文 参考訳(メタデータ) (2021-09-14T13:28:13Z) - From Speech-to-Speech Translation to Automatic Dubbing [28.95595497865406]
自動ダビングを行うために,音声から音声への翻訳パイプラインの拡張を提案する。
本アーキテクチャでは,所望の長さの出力を生成するニューラル機械翻訳,元の音声セグメントとの韻律的アライメント,各発話の持続時間を微調整したニューラルテキスト・トゥ・音声を特徴とする。
論文 参考訳(メタデータ) (2020-01-19T07:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。