論文の概要: MAVFlow: Preserving Paralinguistic Elements with Conditional Flow Matching for Zero-Shot AV2AV Multilingual Translation
- arxiv url: http://arxiv.org/abs/2503.11026v1
- Date: Fri, 14 Mar 2025 02:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:15.922040
- Title: MAVFlow: Preserving Paralinguistic Elements with Conditional Flow Matching for Zero-Shot AV2AV Multilingual Translation
- Title(参考訳): MAVFlow: ゼロショットAV2AV多言語翻訳のための条件付きフローマッチングによるパラ言語的要素の保存
- Authors: Sungwoo Cho, Jeongsoo Choi, Sungnyun Kim, Se-Young Yun,
- Abstract要約: ゼロショット音声・視覚翻訳のための条件付きフローマッチング(CFM)モデルを提案する。
マルチモーダルガイダンスをCFMで活用することにより,話者固有の特徴を頑健に保存する。
顔情報に基づく高品質なメル-スペクトログラムの含有を実証的に示す。
- 参考スコア(独自算出の注目度): 23.892686638994043
- License:
- Abstract: Despite recent advances in text-to-speech (TTS) models, audio-visual to audio-visual (AV2AV) translation still faces a critical challenge: maintaining speaker consistency between the original and translated vocal and facial features. To address this issue, we propose a conditional flow matching (CFM) zero-shot audio-visual renderer that utilizes strong dual guidance from both audio and visual modalities. By leveraging multi-modal guidance with CFM, our model robustly preserves speaker-specific characteristics and significantly enhances zero-shot AV2AV translation abilities. For the audio modality, we enhance the CFM process by integrating robust speaker embeddings with x-vectors, which serve to bolster speaker consistency. Additionally, we convey emotional nuances to the face rendering module. The guidance provided by both audio and visual cues remains independent of semantic or linguistic content, allowing our renderer to effectively handle zero-shot translation tasks for monolingual speakers in different languages. We empirically demonstrate that the inclusion of high-quality mel-spectrograms conditioned on facial information not only enhances the quality of the synthesized speech but also positively influences facial generation, leading to overall performance improvements.
- Abstract(参考訳): 近年のTTS(text-to-speech)モデルの発展にもかかわらず、オーディオ-visual to audio-visual (AV2AV)翻訳は依然として重要な課題に直面している。
この問題に対処するために,条件付きフローマッチング(CFM)ゼロショットオーディオ視覚レンダラーを提案する。
CFMを用いたマルチモーダルガイダンスを利用することで、話者固有の特徴を頑健に保存し、ゼロショットAV2AV翻訳能力を著しく向上する。
音声のモダリティを向上するためには、頑健な話者埋め込みをxベクトルと統合し、話者の整合性を高めることでCFMプロセスを強化する。
さらに、感情的なニュアンスを顔レンダリングモジュールに伝達する。
音声と視覚の両方で提供されるガイダンスはセマンティックコンテンツや言語コンテンツとは無関係であり、レンダラーは異なる言語におけるモノリンガル話者に対するゼロショット翻訳タスクを効果的に処理することができる。
合成音声の品質を高めるだけでなく, 顔生成に肯定的な影響を与え, 全体的な性能改善につながることを実証的に実証した。
関連論文リスト
- CTEFM-VC: Zero-Shot Voice Conversion Based on Content-Aware Timbre Ensemble Modeling and Flow Matching [7.144608815694702]
CTEFM-VCは、発話を言語内容と音色表現に分解するフレームワークである。
音色モデリング能力と生成音声の自然性を高めるため,文脈を考慮した音色アンサンブルモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:23:17Z) - Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。