論文の概要: AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation
- arxiv url: http://arxiv.org/abs/2305.15403v1
- Date: Wed, 24 May 2023 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 13:43:20.808391
- Title: AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation
- Title(参考訳): AV-TranSpeech:音声によるロバスト音声合成
- Authors: Rongjie Huang, Huadai Liu, Xize Cheng, Yi Ren, Linjun Li, Zhenhui Ye,
Jinzheng He, Lichao Zhang, Jinglin Liu, Xiang Yin, Zhou Zhao
- Abstract要約: 音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。
現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。
AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
- 参考スコア(独自算出の注目度): 55.1650189699753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct speech-to-speech translation (S2ST) aims to convert speech from one
language into another, and has demonstrated significant progress to date.
Despite the recent success, current S2ST models still suffer from distinct
degradation in noisy environments and fail to translate visual speech (i.e.,
the movement of lips and teeth). In this work, we present AV-TranSpeech, the
first audio-visual speech-to-speech (AV-S2ST) translation model without relying
on intermediate text. AV-TranSpeech complements the audio stream with visual
information to promote system robustness and opens up a host of practical
applications: dictation or dubbing archival films. To mitigate the data
scarcity with limited parallel AV-S2ST data, we 1) explore self-supervised
pre-training with unlabeled audio-visual data to learn contextual
representation, and 2) introduce cross-modal distillation with S2ST models
trained on the audio-only corpus to further reduce the requirements of visual
data. Experimental results on two language pairs demonstrate that AV-TranSpeech
outperforms audio-only models under all settings regardless of the type of
noise. With low-resource audio-visual data (10h, 30h), cross-modal distillation
yields an improvement of 7.6 BLEU on average compared with baselines. Audio
samples are available at https://AV-TranSpeech.github.io
- Abstract(参考訳): direct speech-to-speech translation (s2st) は、ある言語から別の言語に翻訳することを目的としており、今日までかなりの進歩を遂げている。
最近の成功にもかかわらず、現在のS2STモデルは相変わらずノイズの多い環境の劣化に悩まされ、視覚音声(唇と歯の動き)の翻訳に失敗している。
本研究では、中間テキストに依存しない最初の音声-視覚音声合成モデルであるAV-S2STを提案する。
AV-TranSpeechは、オーディオストリームを視覚情報で補完し、システムのロバスト性を促進し、多くの実用的応用: ディクテーションまたはダビングアーカイブフィルムを開放する。
並列av-s2stデータによるデータ不足の軽減
1)教師なし視聴覚データによる自己教師付き事前学習の探索と文脈表現の学習
2) 音声のみのコーパスで訓練したS2STモデルを用いたクロスモーダル蒸留を導入し, ビジュアルデータの要求をさらに軽減した。
AV-TranSpeechは、ノイズの種類に関わらず、すべての設定下でオーディオのみのモデルより優れていることを示す。
低リソースの視聴覚データ(10h,30h)では、クロスモーダル蒸留はベースラインと比較して平均7.6 bleuの改善をもたらす。
オーディオサンプルはhttps://AV-TranSpeech.github.ioで入手できる。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。