論文の概要: A Comparative Evaluation of Pitch Modification Techniques
- arxiv url: http://arxiv.org/abs/2001.00579v1
- Date: Thu, 2 Jan 2020 09:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:30:33.481867
- Title: A Comparative Evaluation of Pitch Modification Techniques
- Title(参考訳): ピッチ修正技術の比較評価
- Authors: Thomas Drugman, Thierry Dutoit
- Abstract要約: 残留信号の決定論的プラスモデルがTDPSOLA、HNM、STRAIGHTと比較される。
圧縮レベルが高いにもかかわらず、DSM技術は他の方法と類似または良好な結果が得られることが示されている。
- 参考スコア(独自算出の注目度): 13.563526970105988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of pitch modification, as an important
module for an efficient voice transformation system. The Deterministic plus
Stochastic Model of the residual signal we proposed in a previous work is
compared to TDPSOLA, HNM and STRAIGHT. The four methods are compared through an
important subjective test. The influence of the speaker gender and of the pitch
modification ratio is analyzed. Despite its higher compression level, the DSM
technique is shown to give similar or better results than other methods,
especially for male speakers and important ratios of modification. The DSM
turns out to be only outperformed by STRAIGHT for female voices.
- Abstract(参考訳): 本稿では,効率的な音声変換システムのための重要なモジュールとして,ピッチ修正の問題に対処する。
前報で提案した残差信号の決定論的+確率的モデルについて,TDPSOLA,HNM,STRAIGHTと比較した。
4つの方法は重要な主観的テストを通して比較される。
話者の性別とピッチ修正率の影響を分析した。
圧縮レベルが高いにもかかわらず、DSM法は他の方法、特に男性話者と重要な修正率に対して、類似またはより良い結果が得られることが示されている。
DSMは女性の声に対してSTRAIGHTより優れていることが判明した。
関連論文リスト
- DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization [12.310318928818546]
そこで本研究では, 直接的エンドツーエンド評価を用いたTS拡散モデルの蒸留法を提案する。
DMDSpeechは、自然性と話者類似性の両方において、従来の最先端モデルより一貫して上回っていることを示す。
この研究は、音声合成における直接メートル法最適化の可能性を強調し、モデルが人間の聴覚的嗜好とよりよく一致できるようにする。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Investigation of Different Calibration Methods for Deep Speaker
Embedding based Verification Systems [66.61691401921296]
本稿では, ディープスピーカ埋込抽出器のスコアキャリブレーション法について検討する。
この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。
論文 参考訳(メタデータ) (2022-03-28T21:22:22Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - A novel multi-classifier information fusion based on Dempster-Shafer
theory: application to vibration-based fault detection [0.0]
個別分類器の性能を高めるために, 新規な多重分類器融合法を開発した。
証拠間の衝突を計測し緩和するために、新しい計量に基づく前処理技術が考案された。
論文 参考訳(メタデータ) (2020-12-04T09:16:35Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - The Deterministic plus Stochastic Model of the Residual Signal and its
Applications [13.563526970105988]
この原稿は残留信号の決定論的プラスモデル(DSM)を提示する。
次に,2分野の音声処理におけるDSMの適用性について検討した。
論文 参考訳(メタデータ) (2019-12-29T07:52:37Z) - A Comparative Study of Glottal Source Estimation Techniques [11.481208551940998]
ソーストラクション分解(英: Source-tract decomposition, glottal flow Estimation)は、音声処理の基本的な問題の一つである。
本研究では,下肢流量推定の最先端手法を3つ比較した。
論文 参考訳(メタデータ) (2019-12-28T20:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。