論文の概要: MuteSwap: Silent Face-based Voice Conversion
- arxiv url: http://arxiv.org/abs/2507.00498v1
- Date: Tue, 01 Jul 2025 07:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.454973
- Title: MuteSwap: Silent Face-based Voice Conversion
- Title(参考訳): MuteSwap: 静かな顔に基づく音声変換
- Authors: Yifan Liu, Yu Fang, Zhouhan Lin,
- Abstract要約: 我々はSilent Face-based Voice Conversion (SFVC)を紹介する。
SFVCは、視覚的手がかりのみを用いて、理解不能な音声を生成し、アイデンティティを変換する。
MuteSwapは、相互モダリティのアイデンティティを整合させるために、対照的に学習する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 18.395223784732806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional voice conversion modifies voice characteristics from a source speaker to a target speaker, relying on audio input from both sides. However, this process becomes infeasible when clean audio is unavailable, such as in silent videos or noisy environments. In this work, we focus on the task of Silent Face-based Voice Conversion (SFVC), which does voice conversion entirely from visual inputs. i.e., given images of a target speaker and a silent video of a source speaker containing lip motion, SFVC generates speech aligning the identity of the target speaker while preserving the speech content in the source silent video. As this task requires generating intelligible speech and converting identity using only visual cues, it is particularly challenging. To address this, we introduce MuteSwap, a novel framework that employs contrastive learning to align cross-modality identities and minimize mutual information to separate shared visual features. Experimental results show that MuteSwap achieves impressive performance in both speech synthesis and identity conversion, especially under noisy conditions where methods dependent on audio input fail to produce intelligible results, demonstrating both the effectiveness of our training approach and the feasibility of SFVC.
- Abstract(参考訳): 従来の音声変換は、音源話者からターゲット話者への音声特性を両側からの音声入力に依存して変更する。
しかし、サイレントビデオやノイズの多い環境など、クリーンなオーディオが利用できない場合には、このプロセスは実現不可能となる。
本研究では,視覚的入力から完全に音声変換を行うSilent Face-based Voice Conversion (SFVC) の課題に焦点をあてる。
すなわち、ターゲット話者の画像と、リップモーションを含むソース話者のサイレントビデオとが与えられた場合、SFVCは、ソースサイレントビデオ中の音声内容を保持しながら、ターゲット話者のアイデンティティを整列した音声を生成する。
このタスクでは、視覚的手がかりのみを用いて、認識可能な音声を生成し、アイデンティティを変換する必要があるため、特に困難である。
そこで本稿では,MuteSwapを紹介する。MuteSwapは,相互モダリティのアイデンティティを整合させ,相互情報を最小化して視覚的特徴を分離する,コントラスト学習を利用する新しいフレームワークである。
実験結果から,MuteSwapは音声合成と同一性変換の両方において,特に音声入力に依存した手法が理解不可能な雑音条件下での優れた性能を実現し,トレーニング手法の有効性とSFVCの実現可能性の両立を実証した。
関連論文リスト
- VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching [0.7366405857677227]
VoicePrompterは、音声プロンプトでコンテキスト内学習を活用する、堅牢なゼロショット音声変換モデルである。
我々はVoicePrompterが既存のゼロショットVCシステムよりも、話者の類似性、音声のインテリジェンス、音質で優れていることを示す。
論文 参考訳(メタデータ) (2025-01-29T12:34:58Z) - Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。