論文の概要: AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation
- arxiv url: http://arxiv.org/abs/2312.02512v2
- Date: Tue, 26 Mar 2024 13:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 22:23:06.330194
- Title: AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation
- Title(参考訳): AV2AV:統一音声音声表現による直接音声音声から音声音声への変換
- Authors: Jeongsoo Choi, Se Jin Park, Minsu Kim, Yong Man Ro,
- Abstract要約: システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
- 参考スコア(独自算出の注目度): 58.72068260933836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel direct Audio-Visual Speech to Audio-Visual Speech Translation (AV2AV) framework, where the input and output of the system are multimodal (i.e., audio and visual speech). With the proposed AV2AV, two key advantages can be brought: 1) We can perform real-like conversations with individuals worldwide in a virtual meeting by utilizing our own primary languages. In contrast to Speech-to-Speech Translation (A2A), which solely translates between audio modalities, the proposed AV2AV directly translates between audio-visual speech. This capability enhances the dialogue experience by presenting synchronized lip movements along with the translated speech. 2) We can improve the robustness of the spoken language translation system. By employing the complementary information of audio-visual speech, the system can effectively translate spoken language even in the presence of acoustic noise, showcasing robust performance. To mitigate the problem of the absence of a parallel AV2AV translation dataset, we propose to train our spoken language translation system with the audio-only dataset of A2A. This is done by learning unified audio-visual speech representations through self-supervised learning in advance to train the translation system. Moreover, we propose an AV-Renderer that can generate raw audio and video in parallel. It is designed with zero-shot speaker modeling, thus the speaker in source audio-visual speech can be maintained at the target translated audio-visual speech. The effectiveness of AV2AV is evaluated with extensive experiments in a many-to-many language translation setting. Demo page is available on https://choijeongsoo.github.io/av2av.
- Abstract(参考訳): 本稿では,システム入力と出力がマルチモーダル(つまり音声と視覚)となるAV2AV(Audio-Visual Speech to Audio-Visual Speech Translation)フレームワークを提案する。
提案されたAV2AVでは、2つの大きな利点がもたらされる。
1) 自己の母国語を活用すれば, 仮想会議において, 世界中の個人とリアルな会話を行うことができる。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
この機能は、翻訳された音声と同期した唇の動きを提示することにより、対話体験を向上させる。
2) 音声翻訳システムの堅牢性を向上させることができる。
音声・視覚音声の相補的な情報を利用することで、音響ノイズがあっても音声言語を効果的に翻訳し、頑健な性能を示す。
並列AV2AV翻訳データセットが存在しない問題を軽減するため,A2Aの音声のみのデータセットを用いて音声翻訳システムを訓練することを提案する。
これは、翻訳システムの学習に先立って、自己教師付き学習を通じて、統合された音声・視覚音声表現を学習することで実現される。
さらに,生音声と映像を並列に生成できるAV-Rendererを提案する。
ゼロショット話者モデルを用いて設計されており、音源の音声・視覚音声の話者を対象の音声・視覚音声で維持することができる。
AV2AVの有効性は、多対多言語翻訳設定において広範な実験により評価される。
デモページはhttps://choijeongsoo.github.io/av2av.comで公開されている。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。
現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。
AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文 参考訳(メタデータ) (2023-05-24T17:59:03Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Large-scale multilingual audio visual dubbing [31.43873011591989]
本稿では,大規模オーディオビジュアル翻訳とダビングのためのシステムについて述べる。
ソース言語の音声内容はテキストに書き起こされ、翻訳され、ターゲット言語音声に自動的に合成される。
視覚内容は、翻訳された音声と一致するように、話者の唇の動きを合成することにより変換される。
論文 参考訳(メタデータ) (2020-11-06T18:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。