論文の概要: PSVRF: Learning to restore Pitch-Shifted Voice without reference
- arxiv url: http://arxiv.org/abs/2210.02731v1
- Date: Thu, 6 Oct 2022 07:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 18:06:15.665640
- Title: PSVRF: Learning to restore Pitch-Shifted Voice without reference
- Title(参考訳): PSVRF: 参照なしでピッチシフト音声を復元する学習
- Authors: Yangfu Li, Xiaodan Lin, and Jiaxin Yang
- Abstract要約: ピッチシフト音声の高品質復元のためのノン参照手法PSVRF$1$を提案する。
AISHELL-1とAISHELL-3の実験では、PSVRFが様々なピッチスケーリング技術で偽装された音声を復元できることが示されている。
- 参考スコア(独自算出の注目度): 2.8961929092154692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pitch scaling algorithms have a significant impact on the security of
Automatic Speaker Verification (ASV) systems. Although numerous anti-spoofing
algorithms have been proposed to identify the pitch-shifted voice and even
restore it to the original version, they either have poor performance or
require the original voice as a reference, limiting the prospects of
applications. In this paper, we propose a no-reference approach termed
PSVRF$^1$ for high-quality restoration of pitch-shifted voice. Experiments on
AISHELL-1 and AISHELL-3 demonstrate that PSVRF can restore the voice disguised
by various pitch-scaling techniques, which obviously enhances the robustness of
ASV systems to pitch-scaling attacks. Furthermore, the performance of PSVRF
even surpasses that of the state-of-the-art reference-based approach.
- Abstract(参考訳): ピッチスケーリングアルゴリズムは、自動話者検証(ASV)システムのセキュリティに大きな影響を及ぼす。
ピッチシフト音声を識別し、元のバージョンに復元するために、多くのアンチスプーフィングアルゴリズムが提案されているが、それらは性能が悪いか、あるいは元の音声を参照として必要とせず、アプリケーションの展望を制限している。
本稿では,ピッチシフト音声の高品質復元のためのノン参照手法PSVRF$^1$を提案する。
AISHELL-1とAISHELL-3の実験は、PSVRFが様々なピッチスケーリング技術で偽装された音声を復元できることを示した。
さらに、PSVRFのパフォーマンスは最先端の参照ベースアプローチよりも優れている。
関連論文リスト
- Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation [41.98697872087318]
2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
論文 参考訳(メタデータ) (2023-11-08T14:02:53Z) - Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR [35.710735895190844]
ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。
そこで本研究では,入力ノイズ表現のグローバル依存性をモデル化し,クリーンなコードを正確に予測するトランスフォーマーベースのコード予測器を提案する。
合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-11T04:46:12Z) - DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
論文 参考訳(メタデータ) (2022-10-20T07:30:07Z) - ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。
音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2022-09-14T05:53:37Z) - Conditional Deep Hierarchical Variational Autoencoder for Voice
Conversion [5.538544897623972]
変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。
本稿では, モデル表現性の増加がVAE-VCに与える影響について検討する。
論文 参考訳(メタデータ) (2021-12-06T05:54:11Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。