論文の概要: Optimal Transport Maps are Good Voice Converters
- arxiv url: http://arxiv.org/abs/2411.02402v1
- Date: Thu, 17 Oct 2024 22:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 13:03:21.979872
- Title: Optimal Transport Maps are Good Voice Converters
- Title(参考訳): 音声変換器の最適トランスポートマップ
- Authors: Arip Asadulaev, Rostislav Korst, Vitalii Shutov, Alexander Korotin, Yaroslav Grebnyak, Vahe Egiazarian, Evgeny Burnaev,
- Abstract要約: 本稿では,メル・スペクトログラムや自己教師付き音声モデルの潜在表現など,さまざまなデータ表現に最適なトランスポートアルゴリズムを提案する。
メリースペクトルデータ表現では、Frechet Audio Distance (FAD) を用いて強い結果が得られる。
我々は,限られた参照話者データであっても,最先端の成果を達成し,既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 58.42556113055807
- License:
- Abstract: Recently, neural network-based methods for computing optimal transport maps have been effectively applied to style transfer problems. However, the application of these methods to voice conversion is underexplored. In our paper, we fill this gap by investigating optimal transport as a framework for voice conversion. We present a variety of optimal transport algorithms designed for different data representations, such as mel-spectrograms and latent representation of self-supervised speech models. For the mel-spectogram data representation, we achieve strong results in terms of Frechet Audio Distance (FAD). This performance is consistent with our theoretical analysis, which suggests that our method provides an upper bound on the FAD between the target and generated distributions. Within the latent space of the WavLM encoder, we achived state-of-the-art results and outperformed existing methods even with limited reference speaker data.
- Abstract(参考訳): 近年, ニューラルネットワークを用いた最適輸送マップの計算手法が, スタイル伝達問題に効果的に適用されている。
しかし,これらの手法の音声変換への応用は未検討である。
本稿では,音声変換の枠組みとして最適なトランスポートを探索することにより,このギャップを埋める。
本稿では,メル・スペクトログラムや自己教師付き音声モデルの潜在表現など,様々なデータ表現のために設計された様々な最適トランスポートアルゴリズムを提案する。
メリースペクトルデータ表現では、Frechet Audio Distance (FAD) を用いて強い結果が得られる。
この性能は理論解析と一致しており、本手法はターゲット分布と生成分布の間のFAD上の上限を与えることを示している。
WavLMエンコーダの潜伏空間内では、最先端の結果が得られ、参照話者データに制限がある場合でも既存の手法よりも優れていた。
関連論文リスト
- Gaussian Flow Bridges for Audio Domain Transfer with Unpaired Data [20.181313153447412]
本稿では,生成モデルにおけるガウス流橋の可能性について検討する。
提案フレームワークは,2つの決定論的確率フローの一連の実装を通じて,音声信号の分布の異なる輸送問題に対処する。
音声内容の一貫性を維持する上での課題に対処するため,チャンクをベースとしたデータサンプルとノイズの最適輸送結合を含むトレーニング戦略を推奨する。
論文 参考訳(メタデータ) (2024-05-29T20:23:01Z) - Surrogate Modeling of Trajectory Map-matching in Urban Road Networks using Transformer Sequence-to-Sequence Model [1.3812010983144802]
本稿では、オフラインマップマッチングアルゴリズムのサロゲートとして機能するディープラーニングモデル、特にトランスフォーマーベースのエンコーダデコーダモデルを提案する。
このモデルは、ニューヨーク州マンハッタンで収集されたGPSトレースを使って訓練され、評価されている。
論文 参考訳(メタデータ) (2024-04-18T18:39:23Z) - Efficient Neural Network Approaches for Conditional Optimal Transport with Applications in Bayesian Inference [1.740133468405535]
静的および条件付き最適輸送(COT)問題の解を近似する2つのニューラルネットワークアプローチを提案する。
我々は、ベンチマークデータセットとシミュレーションに基づく逆問題を用いて、両アルゴリズムを競合する最先端のアプローチと比較する。
論文 参考訳(メタデータ) (2023-10-25T20:20:09Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-26T02:54:57Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Timbre Transfer with Variational Auto Encoding and Cycle-Consistent
Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。
この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文 参考訳(メタデータ) (2021-09-05T15:06:53Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Feature Robust Optimal Transport for High-dimensional Data [125.04654605998618]
本研究では,高次元データに対する特徴量ロバスト最適輸送(FROT)を提案する。
実世界の意味対応データセットにおいて,FROTアルゴリズムが最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2020-05-25T14:07:16Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。