論文の概要: Investigation of Self-supervised Pre-trained Models for Classification
of Voice Quality from Speech and Neck Surface Accelerometer Signals
- arxiv url: http://arxiv.org/abs/2308.03226v1
- Date: Sun, 6 Aug 2023 23:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:51:50.542706
- Title: Investigation of Self-supervised Pre-trained Models for Classification
of Voice Quality from Speech and Neck Surface Accelerometer Signals
- Title(参考訳): 音声・首面加速度計信号からの音声品質分類のための自己教師付き事前学習モデルの検討
- Authors: Sudarsana Reddy Kadiri, Farhad Javanmardi, Paavo Alku
- Abstract要約: 本研究では,音声品質の分類における音声とNSA信号の同時記録について検討した。
事前学習モデルの有効性は,音声入力とNSA入力の両方に対して,声門音源波形と生信号波形の特徴抽出において比較される。
- 参考スコア(独自算出の注目度): 27.398425786898223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior studies in the automatic classification of voice quality have mainly
studied the use of the acoustic speech signal as input. Recently, a few studies
have been carried out by jointly using both speech and neck surface
accelerometer (NSA) signals as inputs, and by extracting MFCCs and glottal
source features. This study examines simultaneously-recorded speech and NSA
signals in the classification of voice quality (breathy, modal, and pressed)
using features derived from three self-supervised pre-trained models
(wav2vec2-BASE, wav2vec2-LARGE, and HuBERT) and using a SVM as well as CNNs as
classifiers. Furthermore, the effectiveness of the pre-trained models is
compared in feature extraction between glottal source waveforms and raw signal
waveforms for both speech and NSA inputs. Using two signal processing methods
(quasi-closed phase (QCP) glottal inverse filtering and zero frequency
filtering (ZFF)), glottal source waveforms are estimated from both speech and
NSA signals. The study has three main goals: (1) to study whether features
derived from pre-trained models improve classification accuracy compared to
conventional features (spectrogram, mel-spectrogram, MFCCs, i-vector, and
x-vector), (2) to investigate which of the two modalities (speech vs. NSA) is
more effective in the classification task with pre-trained model-based
features, and (3) to evaluate whether the deep learning-based CNN classifier
can enhance the classification accuracy in comparison to the SVM classifier.
The results revealed that the use of the NSA input showed better classification
performance compared to the speech signal. Between the features, the
pre-trained model-based features showed better classification accuracies, both
for speech and NSA inputs compared to the conventional features. It was also
found that the HuBERT features performed better than the wav2vec2-BASE and
wav2vec2-LARGE features.
- Abstract(参考訳): 音声品質の自動分類に関する先行研究は、音声信号の入力としての使用を主に研究してきた。
近年,音声と首面加速度計(nsa)信号を入力として併用し,mfccと声門源の特徴を抽出する研究がいくつか行われている。
本研究では,自己教師付き事前学習モデル(wav2vec2-base,wav2vec2-large,hubert)とsvmとcnnを用いた音声品質分類(breathy,modal, pressed)における同時記録音声とnsa信号について検討した。
さらに,音声入力とnsa入力の両方に対する声門源波形と生信号波形の特徴抽出において,事前学習モデルの有効性を比較検討した。
2つの信号処理方法(quasi-closed phase (qcp) 声門逆フィルタリングとゼロ周波数フィルタリング (zff) を用いて、声門音源波形を音声信号とnsa信号の両方から推定する。
The study has three main goals: (1) to study whether features derived from pre-trained models improve classification accuracy compared to conventional features (spectrogram, mel-spectrogram, MFCCs, i-vector, and x-vector), (2) to investigate which of the two modalities (speech vs. NSA) is more effective in the classification task with pre-trained model-based features, and (3) to evaluate whether the deep learning-based CNN classifier can enhance the classification accuracy in comparison to the SVM classifier.
その結果, 音声信号と比較して, NSA入力を用いた場合の分類性能は良好であった。
これらの特徴の間に、事前訓練されたモデルベースの特徴は、従来の特徴と比較して、音声入力とNSA入力の両方において、より良い分類精度を示した。
また, HuBERT の機能は wav2vec2-BASE や wav2vec2-LARGE よりも優れていた。
関連論文リスト
- Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models [42.39774323584976]
本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず様々なスペクトログラムに変換される。
我々は、Whisper、Seamless、Speechbrain、Pyannoteといった最先端のオーディオ事前訓練モデルを利用して、オーディオ埋め込みを抽出する。
論文 参考訳(メタデータ) (2024-07-01T20:10:43Z) - Comparative Analysis of the wav2vec 2.0 Feature Extractor [42.18541127866435]
本研究では,コネクショニスト時間分類(CTC)ASRモデルにおいて,標準的な特徴抽出手法を置き換える能力について検討する。
LibriSpeechベンチマークでは従来のFEと競合し、個々のコンポーネントの影響を分析する。
論文 参考訳(メタデータ) (2023-08-08T14:29:35Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Non-Intrusive Binaural Speech Intelligibility Prediction from Discrete
Latent Representations [1.1472707084860878]
信号からの音声の可聴性予測は多くの用途で有用である。
信号の特性を考慮するために特別に設計された措置は、しばしば侵入的である。
本稿では,ベクトル量子化(VQ)とコントラッシブ予測符号化(CPC)を組み合わせた入力信号から特徴量を計算する非侵入型SI尺度を提案する。
論文 参考訳(メタデータ) (2021-11-24T14:55:04Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。