論文の概要: Large-scale multilingual audio visual dubbing
- arxiv url: http://arxiv.org/abs/2011.03530v1
- Date: Fri, 6 Nov 2020 18:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:42:59.238394
- Title: Large-scale multilingual audio visual dubbing
- Title(参考訳): 大規模多言語音声ダビング
- Authors: Yi Yang, Brendan Shillingford, Yannis Assael, Miaosen Wang, Wendi Liu,
Yutian Chen, Yu Zhang, Eren Sezener, Luis C. Cobo, Misha Denil, Yusuf Aytar,
Nando de Freitas
- Abstract要約: 本稿では,大規模オーディオビジュアル翻訳とダビングのためのシステムについて述べる。
ソース言語の音声内容はテキストに書き起こされ、翻訳され、ターゲット言語音声に自動的に合成される。
視覚内容は、翻訳された音声と一致するように、話者の唇の動きを合成することにより変換される。
- 参考スコア(独自算出の注目度): 31.43873011591989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a system for large-scale audiovisual translation and dubbing,
which translates videos from one language to another. The source language's
speech content is transcribed to text, translated, and automatically
synthesized into target language speech using the original speaker's voice. The
visual content is translated by synthesizing lip movements for the speaker to
match the translated audio, creating a seamless audiovisual experience in the
target language. The audio and visual translation subsystems each contain a
large-scale generic synthesis model trained on thousands of hours of data in
the corresponding domain. These generic models are fine-tuned to a specific
speaker before translation, either using an auxiliary corpus of data from the
target speaker, or using the video to be translated itself as the input to the
fine-tuning process. This report gives an architectural overview of the full
system, as well as an in-depth discussion of the video dubbing component. The
role of the audio and text components in relation to the full system is
outlined, but their design is not discussed in detail. Translated and dubbed
demo videos generated using our system can be viewed at
https://www.youtube.com/playlist?list=PLSi232j2ZA6_1Exhof5vndzyfbxAhhEs5
- Abstract(参考訳): 本稿では,映像を言語から別の言語へ翻訳する大規模音声視覚翻訳システムについて述べる。
ソース言語の音声内容はテキストに書き起こされ、翻訳され、元の話者の声を用いてターゲット言語音声に自動的に合成される。
視覚コンテンツは、翻訳された音声にマッチする話者の唇の動きを合成し、ターゲット言語でシームレスなオーディオビジュアル体験を作成することで翻訳される。
音声および視覚翻訳サブシステムは、対応する領域における数千時間のデータに基づいて訓練された大規模な汎用合成モデルを含む。
これらのジェネリックモデルは、翻訳前に特定の話者に微調整され、対象話者からのデータの補助的なコーパスを使用するか、動画を微調整プロセスへの入力として使用する。
本報告では,システム全体のアーキテクチャ概要とビデオダビングコンポーネントの詳細な議論について述べる。
システム全体に関する音声とテキストのコンポーネントの役割を概説するが、その設計は詳細には議論されていない。
私たちのシステムで生成されたデモビデオはhttps://www.youtube.com/playlistで閲覧できますか?
list=PLSi232j2ZA6_1Exhof5vndzyfbxAhEs5
関連論文リスト
- AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。