論文の概要: kNN-SVC: Robust Zero-Shot Singing Voice Conversion with Additive Synthesis and Concatenation Smoothness Optimization
- arxiv url: http://arxiv.org/abs/2504.05686v1
- Date: Tue, 08 Apr 2025 04:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:37.781804
- Title: kNN-SVC: Robust Zero-Shot Singing Voice Conversion with Additive Synthesis and Concatenation Smoothness Optimization
- Title(参考訳): kNN-SVC:加法合成と連結平滑度最適化を用いたロバストゼロショット歌声変換
- Authors: Keren Shao, Ke Chen, Matthew Baas, Shlomo Dubnov,
- Abstract要約: 本稿では,歌唱音声変換のためのkNN-VCフレームワークの堅牢性を高める2つの新しい手法を提案する。
第一に、kNN-VCのコア表現であるWavLMは調和性に重点を置いておらず、鈍い音と鳴り響くアーティファクトをもたらす。
第二に、kNN-VCはSVCの重要な知覚因子である連結的滑らかさを見落としている。
- 参考スコア(独自算出の注目度): 12.024508376742817
- License:
- Abstract: Robustness is critical in zero-shot singing voice conversion (SVC). This paper introduces two novel methods to strengthen the robustness of the kNN-VC framework for SVC. First, kNN-VC's core representation, WavLM, lacks harmonic emphasis, resulting in dull sounds and ringing artifacts. To address this, we leverage the bijection between WavLM, pitch contours, and spectrograms to perform additive synthesis, integrating the resulting waveform into the model to mitigate these issues. Second, kNN-VC overlooks concatenative smoothness, a key perceptual factor in SVC. To enhance smoothness, we propose a new distance metric that filters out unsuitable kNN candidates and optimize the summing weights of the candidates during inference. Although our techniques are built on the kNN-VC framework for implementation convenience, they are broadly applicable to general concatenative neural synthesis models. Experimental results validate the effectiveness of these modifications in achieving robust SVC. Demo: http://knnsvc.com Code: https://github.com/SmoothKen/knn-svc
- Abstract(参考訳): ロバストネスはゼロショット歌声変換(SVC)において重要である。
本稿では,SVC用kNN-VCフレームワークのロバスト性を高めるための2つの新しい手法を提案する。
第一に、kNN-VCのコア表現であるWavLMは調和性に重点を置いておらず、鈍い音と鳴り響くアーティファクトをもたらす。
これを解決するために、WavLM、ピッチ輪郭、分光器のビジェクションを利用して加算合成を行い、その結果の波形をモデルに統合してこれらの問題を緩和する。
第二に、kNN-VCはSVCの重要な知覚因子である連結的滑らかさを見落としている。
そこで本研究では,不適なkNN候補を抽出し,推定中の候補の重み付けを最適化する距離測定法を提案する。
本手法は,実装の便宜を図るため,kNN-VCフレームワーク上に構築されているが,一般の結合型ニューラル合成モデルに適用可能である。
実験により, 頑健なSVCの実現におけるこれらの修正の有効性が検証された。
Demo: http://knnsvc.com Code: https://github.com/SmoothKen/knn-svc
関連論文リスト
- Neural Video Compression with Feature Modulation [28.105412445443697]
条件付き符号化ベースニューラルビデオ(NVC)は、一般的に使用される残留符号化ベースニューラルビデオ(NVC)よりも優れていることを示す
本稿では,特徴変調による2つの重要な問題を解くための,条件付き符号化に基づく強力なNVCを提案する。
論文 参考訳(メタデータ) (2024-02-27T11:08:51Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - AIVC: Artificial Intelligence based Video Codec [2.410573852722981]
AIVCはエンドツーエンドのニューラルビデオシステムである。
ビデオの圧縮は、どんなコード構成でも学べる。
これは、最近のビデオコーダHEVCとパフォーマンスの競争力を提供する。
論文 参考訳(メタデータ) (2022-02-09T10:03:12Z) - KNN-BERT: Fine-Tuning Pre-Trained Models with KNN Classifier [61.063988689601416]
事前学習されたモデルは、クロスエントロピー損失によって最適化された線形分類器を用いて、微調整された下流タスクに広く利用されている。
これらの問題は、同じクラスの類似点と、予測を行う際の矛盾点に焦点を当てた表現を学習することで改善することができる。
本稿では、事前訓練されたモデル微調整タスクにおけるKNearest Neighborsについて紹介する。
論文 参考訳(メタデータ) (2021-10-06T06:17:05Z) - Fully Spiking Variational Autoencoder [66.58310094608002]
スパイキングニューラルネットワーク(SNN)は、超高速で超低エネルギー消費のニューロモルフィックデバイス上で動作することができる。
本研究では,SNNを用いた可変オートエンコーダ(VAE)を構築し,画像生成を実現する。
論文 参考訳(メタデータ) (2021-09-26T06:10:14Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - A Token-wise CNN-based Method for Sentence Compression [31.9210679048841]
文圧縮は、原文の短縮とキー情報の保存を目的とした自然言語処理(NLP)タスクである。
現在の手法は主に処理速度の悪いリカレントニューラルネットワーク(RNN)モデルに基づいている。
本稿では,CNN ベースモデルであるトークンワイド・コナールニューラルネットワークと,削除に基づく文圧縮のための事前学習された双方向表現(BERT)機能を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:12:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Visual Commonsense R-CNN [102.5061122013483]
本稿では,新しい教師なし特徴表現学習手法であるVisual Commonsense Region-based Convolutional Neural Network (VC R-CNN)を提案する。
VC R-CNNは、キャプションやVQAのような高レベルのタスクのための改善された視覚領域エンコーダとして機能する。
我々は、画像キャプション、VQA、VCRの3つの一般的なタスクのモデルにおいて、VC R-CNNの機能を広く適用し、それら全体で一貫したパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-27T15:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。