論文の概要: Speaker recognition improvement using blind inversion of distortions
- arxiv url: http://arxiv.org/abs/2203.01164v1
- Date: Wed, 23 Feb 2022 23:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-06 13:14:14.206569
- Title: Speaker recognition improvement using blind inversion of distortions
- Title(参考訳): 歪みのブラインドインバージョンを用いた話者認識の改善
- Authors: Marcos Faundez-Zanuy, Jordi Sole-Casals
- Abstract要約: 飽和度が試験信号に及ぼす影響について検討する。
データ融合と非線形歪み補償を併用することで、認識率を向上させることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we propose the inversion of nonlinear distortions in order to
improve the recognition rates of a speaker recognizer system. We study the
effect of saturations on the test signals, trying to take into account real
situations where the training material has been recorded in a controlled
situation but the testing signals present some mismatch with the input signal
level (saturations). The experimental results shows that a combination of data
fusion with and without nonlinear distortion compensation can improve the
recognition rates with saturated test sentences from 80% to 88.57%, while the
results with clean speech (without saturation) is 87.76% for one microphone.
- Abstract(参考訳): 本稿では,話者認識システムの認識率を向上させるために非線形歪みの逆変換を提案する。
本研究では,テスト信号に対する飽和度の影響について検討し,トレーニング材料が制御された状況で記録された状況を考慮して検討するが,テスト信号は入力信号レベル(飽和度)とのミスマッチを示す。
実験の結果,データ融合と非線形歪み補償の併用により,飽和テスト文の認識率は80%から88.57%に向上し,クリーン音声では87.76%に向上した。
関連論文リスト
- How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Non-Contrastive Self-Supervised Learning of Utterance-Level Speech
Representations [37.665503758394934]
本稿では, 発話レベルの埋め込みを学習するために, ラベル付き音声コーパスに対して, 非コントラスト型自己教師学習法を適用した。
対照的な方法とは異なり、DINOは負のサンプリングを必要としない。
これらの埋め込みは話者の検証と感情認識に基づいて評価された。
論文 参考訳(メタデータ) (2022-08-10T16:04:23Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Investigation of Different Calibration Methods for Deep Speaker
Embedding based Verification Systems [66.61691401921296]
本稿では, ディープスピーカ埋込抽出器のスコアキャリブレーション法について検討する。
この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。
論文 参考訳(メタデータ) (2022-03-28T21:22:22Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Improving Polyphonic Sound Event Detection on Multichannel Recordings
with the S{\o}rensen-Dice Coefficient Loss and Transfer Learning [15.088901748728391]
ディース損失を訓練したポリフォニック音響イベント検出システムは、クロスエントロピー損失を訓練した者よりも一貫して優れていた。
我々は、転送学習と異なるデータ拡張手法を適切に組み合わせることで、さらなるパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2021-07-22T06:14:23Z) - ReLearn: A Robust Machine Learning Framework in Presence of Missing Data
for Multimodal Stress Detection from Physiological Signals [5.042598205771715]
マルチモーダル生理学的信号から抽出したバイオマーカーからのストレス検出のための堅牢な機械学習フレームワークであるReLearnを提案する。
ReLearnは、トレーニングと推論フェーズの両方において、欠落したデータと外れ値に効果的に対処する。
提案手法は,50%以上のサンプルが欠落している場合でも,86.8%のクロスバリデーション精度が得られることを示す。
論文 参考訳(メタデータ) (2021-04-29T11:53:01Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Shouted Speech Compensation for Speaker Verification Robust to Vocal
Effort Conditions [10.042047097101559]
本稿では,埋め込みの線形補償法について述べる。
話者検証において, 発声条件と正常条件のミスマッチを補うために, それらを適用した。
実験結果から,声道努力ミスマッチの存在下でのアプローチの適用により,最大13.8%の誤差率の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-08-06T07:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。