論文の概要: Glottal Source Processing: from Analysis to Applications
- arxiv url: http://arxiv.org/abs/1912.12604v1
- Date: Sun, 29 Dec 2019 08:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 08:04:19.815907
- Title: Glottal Source Processing: from Analysis to Applications
- Title(参考訳): glottal ソース処理:分析からアプリケーションへ
- Authors: Thomas Drugman, Paavo Alku, Abeer Alwan, Bayya Yegnanarayana
- Abstract要約: 音声記録からの声門解析には、特定のより複雑な処理操作が必要である。
本総説では,Glottal Source Processing 用に設計された技術の概要を概説する。
- 参考スコア(独自算出の注目度): 35.80742217666323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The great majority of current voice technology applications relies on
acoustic features characterizing the vocal tract response, such as the widely
used MFCC of LPC parameters. Nonetheless, the airflow passing through the vocal
folds, and called glottal flow, is expected to exhibit a relevant
complementarity. Unfortunately, glottal analysis from speech recordings
requires specific and more complex processing operations, which explains why it
has been generally avoided. This review gives a general overview of techniques
which have been designed for glottal source processing. Starting from
fundamental analysis tools of pitch tracking, glottal closure instant
detection, glottal flow estimation and modelling, this paper then highlights
how these solutions can be properly integrated within various voice technology
applications.
- Abstract(参考訳): 現在の音声技術応用の大半は、LPCパラメータの広く使われているMFCCのような声道応答を特徴付ける音響的特徴に依存している。
しかし,声帯内を流れる気流は声門流と呼ばれ,関連する相補性を示すことが期待される。
残念なことに、音声記録からの声門解析には特定の複雑な処理操作が必要である。
本総説では,Glottal Source Processing 用に設計された技術の概要を概説する。
ピッチトラッキング,声門閉鎖の瞬時検出,声門フロー推定,モデリングといった基本的な分析ツールから,これらのソリューションを様々な音声技術アプリケーションに適切に組み込む方法について紹介する。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Voice Signal Processing for Machine Learning. The Case of Speaker Isolation [0.0]
本稿では,音声処理タスクの信号分解手法として最もよく用いられるフーリエ変換とウェーブレット変換の比較解析を行う。
展示の詳細なレベルは、特定のMLモデルの分解方法を選択し、微調整し、評価する際に、MLエンジニアが情報的な決定を下すのに十分である。
論文 参考訳(メタデータ) (2024-03-29T14:31:36Z) - Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms [19.122454483635615]
この研究は、Deep Noise Suppression (DNS) 2020データセットに基づいており、様々なデノナイジング設定やレシーバインターフェースに合わせて、構造化された検査を確実にする。
Blinder-Oaxaca分解(Blinder-Oaxaca decomposition)は、従来のエコノメトリーツールであり、VoIPシステム内の音響・音響的摂動を解析するための手法である。
主な発見に加えて、さまざまな指標が報告され、研究のパースペクションが拡張された。
論文 参考訳(メタデータ) (2023-10-11T03:19:22Z) - Analysis and Detection of Pathological Voice using Glottal Source
Features [18.80191660913831]
準閉鎖相 (QCP) のスロットル逆フィルタリング法を用いて, 声門音源の特徴を推定し, 声門音源の特徴を抽出した。
我々はQCPとZFFによって計算された震源波形からメル周波数ケプストラル係数(MFCC)を導出する。
特徴分析の結果,声門源には正常な声と病理的な声を識別する情報が含まれていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-25T12:14:25Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Chirp Complex Cepstrum-based Decomposition for Asynchronous Glottal
Analysis [13.563526970105988]
本稿では, チャープ解析を取り入れた複雑なケプストラム分解法を提案する。
その結果,窓の位置がどこにあっても,声門流の信頼度を推定できることがわかった。
論文 参考訳(メタデータ) (2020-05-10T17:33:48Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z) - Causal-Anticausal Decomposition of Speech using Complex Cepstrum for
Glottal Source Estimation [11.481208551940998]
複雑なケプストラムの因果分解は, 声門流量推定に有効であることを示す。
提案手法は,音声品質分析に用いる可能性がある。
論文 参考訳(メタデータ) (2019-12-30T08:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。