論文の概要: Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement
- arxiv url: http://arxiv.org/abs/2401.04511v1
- Date: Tue, 9 Jan 2024 12:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:45:39.032997
- Title: Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement
- Title(参考訳): Zero Shot Audio to Audio Emotion Transfer with Speaker Disentanglement (英語)
- Authors: Soumya Dutta and Sriram Ganapathy
- Abstract要約: ゼロショット感情スタイル転送(ZEST)と呼ばれる効率的なアプローチを提案する。
提案システムは,音声を意味トークン,話者表現,感情埋め込みに分解して構築する。
提案したZESTモデルでは、ソースやターゲットオーディオから並列トレーニングデータやラベルを使わずに、ゼロショットの感情伝達能力を示す。
- 参考スコア(独自算出の注目度): 41.837538440839815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of audio-to-audio (A2A) style transfer involves replacing the
style features of the source audio with those from the target audio while
preserving the content related attributes of the source audio. In this paper,
we propose an efficient approach, termed as Zero-shot Emotion Style Transfer
(ZEST), that allows the transfer of emotional content present in the given
source audio with the one embedded in the target audio while retaining the
speaker and speech content from the source. The proposed system builds upon
decomposing speech into semantic tokens, speaker representations and emotion
embeddings. Using these factors, we propose a framework to reconstruct the
pitch contour of the given speech signal and train a decoder that reconstructs
the speech signal. The model is trained using a self-supervision based
reconstruction loss. During conversion, the emotion embedding is alone derived
from the target audio, while rest of the factors are derived from the source
audio. In our experiments, we show that, even without using parallel training
data or labels from the source or target audio, we illustrate zero shot emotion
transfer capabilities of the proposed ZEST model using objective and subjective
quality evaluations.
- Abstract(参考訳): オーディオ・トゥ・オーディオ(A2A)スタイル転送の問題は、ソースオーディオのコンテンツ関連属性を保存しながら、ソースオーディオのスタイル特徴をターゲットオーディオのスタイル特徴に置き換えることである。
本稿では,ZEST(Zero-shot Emotion Style Transfer)と呼ばれる効率的なアプローチを提案し,音源から話者と音声の内容を保持しながら,対象音源に埋め込まれた感情的内容の伝達を可能にする。
提案システムは,音声を意味トークン,話者表現,感情埋め込みに分解して構築する。
これらの要因を用いて,音声信号のピッチ輪郭を再構成し,音声信号を再構成するデコーダを訓練する枠組みを提案する。
モデルは自己超越に基づく再構築損失を用いて訓練される。
変換中は、感情の埋め込みはターゲットオーディオからのみ導出され、その他の要素はソースオーディオから導出される。
実験では,ソースやターゲットオーディオから並列トレーニングデータやラベルを使わずに,客観的および主観的品質評価を用いて,提案したZESTモデルのゼロショット感情伝達能力を示す。
関連論文リスト
- AdaptVC: High Quality Voice Conversion with Adaptive Learning [28.25726543043742]
鍵となる課題は、ソースと音声スタイルから絡み合った言語コンテンツを抽出することである。
本稿では,アダプタを用いた自己教師型音声特徴の調整により,コンテンツと話者の特徴のアンタングル化を成功させる。
アダプタは、リッチな自己教師付き特徴からニュアンス特徴を動的に符号化するように訓練され、デコーダはそれらを融合して参照に正確に類似した音声を生成する。
論文 参考訳(メタデータ) (2025-01-02T16:54:08Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Catch You and I Can: Revealing Source Voiceprint Against Voice
Conversion [0.0]
音声変換法で合成した音声から高クレジットで音源を復元する試みを初めて行った。
変換された音声サンプルから音源話者の音声プリントを効果的に抽出する表現学習モデルであるRevelioを開発した。
論文 参考訳(メタデータ) (2023-02-24T03:33:13Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。