論文の概要: Glottal Closure and Opening Instant Detection from Speech Signals
- arxiv url: http://arxiv.org/abs/2001.00841v1
- Date: Sat, 28 Dec 2019 19:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 13:02:18.915575
- Title: Glottal Closure and Opening Instant Detection from Speech Signals
- Title(参考訳): 音声信号からの声門閉鎖と開口瞬間検出
- Authors: Thomas Drugman, Thierry Dutoit
- Abstract要約: 本稿では,音声波形から直接GCI(Glottal Closure and Opening Instants)を検出する手法を提案する。
提案手法は,CMU ARCTICデータベース上のDYPSAアルゴリズムと比較する。
- 参考スコア(独自算出の注目度): 13.563526970105988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new procedure to detect Glottal Closure and Opening
Instants (GCIs and GOIs) directly from speech waveforms. The procedure is
divided into two successive steps. First a mean-based signal is computed, and
intervals where speech events are expected to occur are extracted from it.
Secondly, at each interval a precise position of the speech event is assigned
by locating a discontinuity in the Linear Prediction residual. The proposed
method is compared to the DYPSA algorithm on the CMU ARCTIC database. A
significant improvement as well as a better noise robustness are reported.
Besides, results of GOI identification accuracy are promising for the glottal
source characterization.
- Abstract(参考訳): 本稿では,音声波形から直接GCI(Glottal Closure and Opening Instants)を検出する手法を提案する。
手順は2つの段階に分けられる。
まず、平均に基づく信号が算出され、音声イベントが発生すると期待される間隔が抽出される。
第2に、各間隔で、線形予測残差における不連続性を特定することにより、音声イベントの正確な位置を割り当てる。
提案手法は,CMU ARCTICデータベース上のDYPSAアルゴリズムと比較する。
大幅な改善と、より優れたノイズ堅牢性が報告されている。
また,goi識別精度の結果は声門音源特性に有望である。
関連論文リスト
- End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Composably secure data processing for Gaussian-modulated continuous
variable quantum key distribution [58.720142291102135]
連続可変量子鍵分布(QKD)は、ボソニックモードの二次構造を用いて、2つのリモートパーティ間の秘密鍵を確立する。
構成可能な有限サイズセキュリティの一般的な設定におけるホモダイン検出プロトコルについて検討する。
特に、ハイレート(非バイナリ)の低密度パリティチェックコードを使用する必要のあるハイシグネチャ・ツー・ノイズ・システマを解析する。
論文 参考訳(メタデータ) (2021-03-30T18:02:55Z) - Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for
End-to-End Speech Systems [78.5097679815944]
本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。
まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。
第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。
第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
論文 参考訳(メタデータ) (2021-03-15T01:11:13Z) - Optimal Sequential Detection of Signals with Unknown Appearance and
Disappearance Points in Time [64.26593350748401]
本論文は、変化の期間が有限で未知であると仮定して、逐次的な変化点検出問題に対処する。
我々は、所定の時間(または空間)ウィンドウにおける最小検出確率を最大化する信頼性の高い最大変更検出基準に焦点を当てる。
FMAアルゴリズムは、光学画像中の衛星のかすかなストリークを検出するために応用される。
論文 参考訳(メタデータ) (2021-02-02T04:58:57Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z) - Detection of Glottal Closure Instants from Speech Signals: a
Quantitative Review [9.351195374919365]
最先端の5つのGCI検出アルゴリズムを6つのデータベースを用いて比較する。
これらの手法の有効性は, 可読性と精度の両面から, クリーン音声で評価される。
クリーン音声では, SEDREAMS と YAGA が識別率と精度の両面で最良であることを示す。
論文 参考訳(メタデータ) (2019-12-28T14:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。