論文の概要: Oscillating Statistical Moments for Speech Polarity Detection
- arxiv url: http://arxiv.org/abs/2005.07901v1
- Date: Sat, 16 May 2020 08:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:41:37.735091
- Title: Oscillating Statistical Moments for Speech Polarity Detection
- Title(参考訳): 音声極性検出のための振動統計モーメント
- Authors: Thomas Drugman, Thierry Dutoit
- Abstract要約: 音声の極性の逆転は、様々な音声処理技術の性能に劇的な有害な影響を及ぼす可能性がある。
本稿では,振動する統計モーメントに依存する新しい極性検出手法を提案する。
- 参考スコア(独自算出の注目度): 13.563526970105988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An inversion of the speech polarity may have a dramatic detrimental effect on
the performance of various techniques of speech processing. An automatic method
for determining the speech polarity (which is dependent upon the recording
setup) is thus required as a preliminary step for ensuring the well-behaviour
of such techniques. This paper proposes a new approach of polarity detection
relying on oscillating statistical moments. These moments have the property to
oscillate at the local fundamental frequency and to exhibit a phase shift which
depends on the speech polarity. This dependency stems from the introduction of
non-linearity or higher-order statistics in the moment calculation. The
resulting method is shown on 10 speech corpora to provide a substantial
improvement compared to state-of-the-art techniques.
- Abstract(参考訳): 音声の極性の反転は、様々な音声処理技術の性能に劇的な悪影響をもたらす可能性がある。
したがって、このような手法の良好な動作を保証するための予備ステップとして、音声の極性(記録装置に依存している)を決定するための自動手法が必要である。
本稿では,振動する統計モーメントに依存する新しい極性検出手法を提案する。
これらのモーメントは、局所的な基本周波数で発振し、音声の極性に依存する位相シフトを示す特性を持つ。
この依存は、モーメント計算における非線形あるいは高次統計の導入に由来する。
得られた手法は10の音声コーパスに示され、最先端技術と比較して大幅に改善された。
関連論文リスト
- Retrieving space-dependent polarization transformations via near-optimal
quantum process tomography [55.41644538483948]
トモグラフィー問題に対する遺伝的および機械学習アプローチの適用について検討する。
ニューラルネットワークベースのスキームは、リアルタイムにキャラクタリゼーションを必要とするアプリケーションにおいて、重要なスピードアップを提供する。
これらの結果は、より一般的な量子プロセスにおけるトモグラフィーアプローチの最適化の基礎となることを期待する。
論文 参考訳(メタデータ) (2022-10-27T11:37:14Z) - EEG Signal Processing using Wavelets for Accurate Seizure Detection
through Cost Sensitive Data Mining [2.7907613804877283]
本稿では,アセプション検出のためのウェーブレットの特性に依存するアプローチを提案する。
我々は、信号ノイズを低減するために、最大オーバーラップ離散ウェーブレット変換を利用する。
我々は、再構成されたノイズ低減信号、電極接続、情報伝達の効率から導かれる基本的統計パラメータを用いて属性空間を構築する。
論文 参考訳(メタデータ) (2021-09-22T01:40:51Z) - An Enhanced Photonic Quantum Finite Automaton [52.77024349608834]
我々は,一貫した一方向量子有限オートマトンを光学的に実装し,一貫した周期言語のよく知られた族を認識する。
入力語を処理するために、単一光子の偏光度を利用して、受入誤差確率を低減するために、光子カウントを用いた信頼増幅技術を実装する。
論文 参考訳(メタデータ) (2021-09-21T11:14:26Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Maximum Phase Modeling for Sparse Linear Prediction of Speech [9.350099146904869]
本研究の目的は,音声の最大位相寄与のモデル化を取り入れた新しい手法を提案することである。
提案手法は,LP残差信号の空間性を大幅に向上させるとともに,2つの図示的応用に有効であることを示す。
論文 参考訳(メタデータ) (2020-06-07T12:34:20Z) - Residual Excitation Skewness for Automatic Speech Polarity Detection [9.350099146904869]
2つの励起信号の歪度に基づく非常に単純なアルゴリズムを提案する。
この手法は10の音声コーパス(8545ファイル)に表示され、クリーンな条件下では0.06%の誤差率となる。
単純さによって計算負荷を著しく低減し、ノイズと残響環境の両方において強い強靭性を示すことが観察されている。
論文 参考訳(メタデータ) (2020-05-31T13:56:07Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z) - Cat states in a driven superfluid: role of signal shape and switching
protocol [62.997667081978825]
運動エネルギーをゼロ時間平均で振動させた1次元Bose-Hubbardモデルの挙動について検討する。
システムパラメータの変動に対して,この非従来的基底状態のロバスト性を分析する。
論文 参考訳(メタデータ) (2020-05-11T15:15:06Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z) - A Comparative Study of Glottal Source Estimation Techniques [11.481208551940998]
ソーストラクション分解(英: Source-tract decomposition, glottal flow Estimation)は、音声処理の基本的な問題の一つである。
本研究では,下肢流量推定の最先端手法を3つ比較した。
論文 参考訳(メタデータ) (2019-12-28T20:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。