論文の概要: TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation
- arxiv url: http://arxiv.org/abs/2312.15197v1
- Date: Sat, 23 Dec 2023 08:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:12:14.207832
- Title: TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation
- Title(参考訳): TransFace: 頭部翻訳のための単位ベース音声合成装置
- Authors: Xize Cheng, Rongjie Huang, Linjun Li, Tao Jin, Zehan Wang, Aoxiong
Yin, Minglei Li, Xinyu Duan, changpeng yang, Zhou Zhao
- Abstract要約: 音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
- 参考スコア(独自算出の注目度): 54.155138561698514
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Direct speech-to-speech translation achieves high-quality results through the
introduction of discrete units obtained from self-supervised learning. This
approach circumvents delays and cascading errors associated with model
cascading. However, talking head translation, converting audio-visual speech
(i.e., talking head video) from one language into another, still confronts
several challenges compared to audio speech: (1) Existing methods invariably
rely on cascading, synthesizing via both audio and text, resulting in delays
and cascading errors. (2) Talking head translation has a limited set of
reference frames. If the generated translation exceeds the length of the
original speech, the video sequence needs to be supplemented by repeating
frames, leading to jarring video transitions. In this work, we propose a model
for talking head translation, \textbf{TransFace}, which can directly translate
audio-visual speech into audio-visual speech in other languages. It consists of
a speech-to-unit translation model to convert audio speech into discrete units
and a unit-based audio-visual speech synthesizer, Unit2Lip, to re-synthesize
synchronized audio-visual speech from discrete units in parallel. Furthermore,
we introduce a Bounded Duration Predictor, ensuring isometric talking head
translation and preventing duplicate reference frames. Experiments demonstrate
that our proposed Unit2Lip model significantly improves synchronization (1.601
and 0.982 on LSE-C for the original and generated audio speech, respectively)
and boosts inference speed by a factor of 4.35 on LRS2. Additionally, TransFace
achieves impressive BLEU scores of 61.93 and 47.55 for Es-En and Fr-En on
LRS3-T and 100% isochronous translations.
- Abstract(参考訳): 自己教師付き学習から得られた離散単位の導入により、音声から音声への直接翻訳は高品質な結果を得る。
このアプローチは、モデルカスケードに関連する遅延やカスケードエラーを回避する。
しかし, 音声音声から音声音声への変換は, 1) 既存の手法は, 音声とテキストの両方を通して, キャスケーディング, 合成に依存しているため, 遅延やカスケードエラーが発生する。
2)トーキングヘッド翻訳は、参照フレームの限られたセットを有する。
生成された翻訳が元の音声の長さを超える場合、フレームを繰り返すことでビデオシーケンスを補う必要があるため、ビデオ遷移は厄介になる。
本稿では,音声・視覚音声を他の言語で直接音声・視覚音声に翻訳できる音声頭部翻訳用モデルである \textbf{transface} を提案する。
音声音声を離散単位に変換する音声-単位変換モデルと、単位ベースの音声-視覚音声合成器であるunit2lipから、離散単位からの同期音声-視覚音声を並列に合成する。
さらに,Isometric talking head translation を保証し,参照フレームの重複を防止する境界時間予測器を導入する。
実験により,提案したUnit2Lipモデルでは,LSE-Cでは1.601および0.982の同期が向上し,LRS2では4.35倍の推論速度が向上した。
さらに、TransFace は LRS3-T 上で Es-En と Fr-En に対して 61.93 と 47.55 の BLEU スコアを達成し、100% の同調翻訳を行う。
関連論文リスト
- A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Translatotron 3: Speech to Speech Translation with Monolingual Data [23.376969078371282]
Translatotron 3は、モノリンガル音声テキストデータセットからの教師なし直接音声音声翻訳のための新しいアプローチである。
その結果,Translatotron 3はベースラインカスケードシステムより優れていた。
論文 参考訳(メタデータ) (2023-05-27T18:30:54Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。