Fugu-MT 論文翻訳(概要): Training-Free Voice Conversion with Factorized Optimal Transport

論文の概要: Training-Free Voice Conversion with Factorized Optimal Transport

arxiv url: http://arxiv.org/abs/2506.09709v1
Date: Wed, 11 Jun 2025 13:23:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:02.998
Title: Training-Free Voice Conversion with Factorized Optimal Transport
Title（参考訳）: 係数化最適輸送を用いた学習自由音声変換
Authors: Alexander Lobashev, Assel Yermekova, Maria Larchenko,
Abstract要約: 本稿では,kNN-VCパイプラインのトレーニング不要な修正であるFactized MKL-VCを紹介する。元のパイプラインとは対照的に,提案アルゴリズムは参照音声の5秒で高品質な非言語間音声変換を行う。
参考スコア（独自算出の注目度）: 44.99833362998488
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces Factorized MKL-VC, a training-free modification for kNN-VC pipeline. In contrast with original pipeline, our algorithm performs high quality any-to-any cross-lingual voice conversion with only 5 second of reference audio. MKL-VC replaces kNN regression with a factorized optimal transport map in WavLM embedding subspaces, derived from Monge-Kantorovich Linear solution. Factorization addresses non-uniform variance across dimensions, ensuring effective feature transformation. Experiments on LibriSpeech and FLEURS datasets show MKL-VC significantly improves content preservation and robustness with short reference audio, outperforming kNN-VC. MKL-VC achieves performance comparable to FACodec, especially in cross-lingual voice conversion domain.
Abstract（参考訳）: 本稿では,kNN-VCパイプラインのトレーニング不要な修正であるFactized MKL-VCを紹介する。元のパイプラインとは対照的に,提案アルゴリズムは参照音声の5秒で高品質な非言語間音声変換を行う。 MKL-VCはkNN回帰を、モンゲ・カントロヴィチ・リニア解から派生した、WavLM埋め込み部分空間の係数化された最適輸送写像に置き換える。因子化は次元の非一様分散に対処し、効果的な特徴変換を保証する。 LibriSpeechデータセットとFLEURSデータセットの実験では、MKL-VCは短い参照音声でコンテンツの保存とロバスト性を大幅に改善し、kNN-VCを上回っている。 MKL-VCは、特に言語間音声変換領域において、FACodecに匹敵する性能を達成する。

関連論文リスト

KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
Improving Low-Resource Dialect Classification Using Retrieval-based Voice Conversion [6.239015118429602]
本稿では,低リソースなドイツ語方言分類タスクにおいて,音声変換を効果的なデータ拡張手法として用いることを提案する。音声サンプルを均一なターゲット話者に変換することにより、RVCは話者に関連する変動を最小限に抑え、モデルは方言固有の言語的特徴と音声的特徴に集中することができる。
論文参考訳（メタデータ） (2025-07-04T15:14:49Z)
kNN-SVC: Robust Zero-Shot Singing Voice Conversion with Additive Synthesis and Concatenation Smoothness Optimization [12.024508376742817]
本稿では,歌唱音声変換のためのkNN-VCフレームワークの堅牢性を高める2つの新しい手法を提案する。第一に、kNN-VCのコア表現であるWavLMは調和性に重点を置いておらず、鈍い音と鳴り響くアーティファクトをもたらす。第二に、kNN-VCはSVCの重要な知覚因子である連結的滑らかさを見落としている。
論文参考訳（メタデータ） (2025-04-08T04:59:56Z)
LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling [7.487807225162913]
SVC(Singing Voice Conversion)は、Voice Conversion(VC)の重要なサブフィールドとして登場した。従来のSVC手法は、オーディオ品質、データ要求、計算複雑性の点で制限がある。本稿では,SVCフレームワークと拡散モデルに基づく軽量CPU互換モデルであるLHQ-SVCを提案する。
論文参考訳（メタデータ） (2024-09-13T07:02:36Z)
Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。 KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文参考訳（メタデータ） (2024-07-25T12:56:22Z)
Conditional Deep Hierarchical Variational Autoencoder for Voice Conversion [5.538544897623972]
変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。本稿では, モデル表現性の増加がVAE-VCに与える影響について検討する。
論文参考訳（メタデータ） (2021-12-06T05:54:11Z)
Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文参考訳（メタデータ） (2021-06-16T15:47:06Z)
DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。 DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文参考訳（メタデータ） (2021-05-28T14:26:40Z)
Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-09T10:55:27Z)
FastVC: Fast Voice Conversion with non-parallel data [13.12834490248018]
本稿では、高速音声変換(VC)のためのエンドツーエンドモデルであるFastVCを紹介する。 FastVCは、非並列データでトレーニングされた条件付きAutoEncoder(AE)に基づいており、アノテーションは一切必要としない。提案されたモデルの単純な構造にもかかわらず、自然性の観点から見ると、VC Challenge 2020の言語横断タスクのベースラインを上回っている。
論文参考訳（メタデータ） (2020-10-08T18:05:30Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。