Fugu-MT 論文翻訳(概要): Glottal Source Processing: from Analysis to Applications

論文の概要: Glottal Source Processing: from Analysis to Applications

arxiv url: http://arxiv.org/abs/1912.12604v1
Date: Sun, 29 Dec 2019 08:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-17 08:04:19.815907
Title: Glottal Source Processing: from Analysis to Applications
Title（参考訳）: glottal ソース処理:分析からアプリケーションへ
Authors: Thomas Drugman, Paavo Alku, Abeer Alwan, Bayya Yegnanarayana
Abstract要約: 音声記録からの声門解析には、特定のより複雑な処理操作が必要である。本総説では,Glottal Source Processing 用に設計された技術の概要を概説する。
参考スコア（独自算出の注目度）: 35.80742217666323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The great majority of current voice technology applications relies on acoustic features characterizing the vocal tract response, such as the widely used MFCC of LPC parameters. Nonetheless, the airflow passing through the vocal folds, and called glottal flow, is expected to exhibit a relevant complementarity. Unfortunately, glottal analysis from speech recordings requires specific and more complex processing operations, which explains why it has been generally avoided. This review gives a general overview of techniques which have been designed for glottal source processing. Starting from fundamental analysis tools of pitch tracking, glottal closure instant detection, glottal flow estimation and modelling, this paper then highlights how these solutions can be properly integrated within various voice technology applications.
Abstract（参考訳）: 現在の音声技術応用の大半は、LPCパラメータの広く使われているMFCCのような声道応答を特徴付ける音響的特徴に依存している。しかし,声帯内を流れる気流は声門流と呼ばれ,関連する相補性を示すことが期待される。残念なことに、音声記録からの声門解析には特定の複雑な処理操作が必要である。本総説では,Glottal Source Processing 用に設計された技術の概要を概説する。ピッチトラッキング,声門閉鎖の瞬時検出,声門フロー推定,モデリングといった基本的な分析ツールから,これらのソリューションを様々な音声技術アプリケーションに適切に組み込む方法について紹介する。

関連論文リスト

Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文参考訳（メタデータ） (2025-10-02T14:18:20Z)
Unified AI for Accurate Audio Anomaly Detection [0.0]
本稿では,高精度な音声異常検出のための統合AIフレームワークを提案する。高度なノイズ低減、特徴抽出、機械学習モデリング技術を統合する。このフレームワークはTORGOやLibriSpeechといったベンチマークデータセットで評価されている。
論文参考訳（メタデータ） (2025-05-20T16:56:08Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Voice Signal Processing for Machine Learning. The Case of Speaker Isolation [0.0]
本稿では,音声処理タスクの信号分解手法として最もよく用いられるフーリエ変換とウェーブレット変換の比較解析を行う。展示の詳細なレベルは、特定のMLモデルの分解方法を選択し、微調整し、評価する際に、MLエンジニアが情報的な決定を下すのに十分である。
論文参考訳（メタデータ） (2024-03-29T14:31:36Z)
Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms [19.122454483635615]
この研究は、Deep Noise Suppression (DNS) 2020データセットに基づいており、様々なデノナイジング設定やレシーバインターフェースに合わせて、構造化された検査を確実にする。 Blinder-Oaxaca分解(Blinder-Oaxaca decomposition)は、従来のエコノメトリーツールであり、VoIPシステム内の音響・音響的摂動を解析するための手法である。主な発見に加えて、さまざまな指標が報告され、研究のパースペクションが拡張された。
論文参考訳（メタデータ） (2023-10-11T03:19:22Z)
Analysis and Detection of Pathological Voice using Glottal Source Features [18.80191660913831]
準閉鎖相 (QCP) のスロットル逆フィルタリング法を用いて, 声門音源の特徴を推定し, 声門音源の特徴を抽出した。我々はQCPとZFFによって計算された震源波形からメル周波数ケプストラル係数(MFCC)を導出する。特徴分析の結果,声門源には正常な声と病理的な声を識別する情報が含まれていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-25T12:14:25Z)
DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。 DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文参考訳（メタデータ） (2021-05-28T14:26:40Z)
FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。 FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文参考訳（メタデータ） (2020-10-27T09:21:03Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
Chirp Complex Cepstrum-based Decomposition for Asynchronous Glottal Analysis [13.563526970105988]
本稿では, チャープ解析を取り入れた複雑なケプストラム分解法を提案する。その結果,窓の位置がどこにあっても,声門流の信頼度を推定できることがわかった。
論文参考訳（メタデータ） (2020-05-10T17:33:48Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)
Causal-Anticausal Decomposition of Speech using Complex Cepstrum for Glottal Source Estimation [11.481208551940998]
複雑なケプストラムの因果分解は, 声門流量推定に有効であることを示す。提案手法は,音声品質分析に用いる可能性がある。
論文参考訳（メタデータ） (2019-12-30T08:12:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。