論文の概要: On combining acoustic and modulation spectrograms in an attention
LSTM-based system for speech intelligibility level classification
- arxiv url: http://arxiv.org/abs/2402.02865v1
- Date: Mon, 5 Feb 2024 10:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:00:06.872951
- Title: On combining acoustic and modulation spectrograms in an attention
LSTM-based system for speech intelligibility level classification
- Title(参考訳): 音声インテリジェンスレベル分類のための注意LSTMシステムにおける音響・変調スペクトログラムの組み合わせについて
- Authors: Ascensi\'on Gallardo-Antol\'in and Juan M. Montero
- Abstract要約: 本稿では,音声の了解度予測のためのアテンション機構を備えたLSTMネットワークに基づく非侵入システムを提案する。
LSTMフレームワークにフレームごとの音響ログメルと変調スペクトログラムを組み合わせるための2つの異なる戦略について検討した。
提案手法は, 難易度が異なる変形性音声を含むUA-Speechデータベースを用いて評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech intelligibility can be affected by multiple factors, such as noisy
environments, channel distortions or physiological issues. In this work, we
deal with the problem of automatic prediction of the speech intelligibility
level in this latter case. Starting from our previous work, a non-intrusive
system based on LSTM networks with attention mechanism designed for this task,
we present two main contributions. In the first one, it is proposed the use of
per-frame modulation spectrograms as input features, instead of compact
representations derived from them that discard important temporal information.
In the second one, two different strategies for the combination of per-frame
acoustic log-mel and modulation spectrograms into the LSTM framework are
explored: at decision level or late fusion and at utterance level or
Weighted-Pooling (WP) fusion. The proposed models are evaluated with the
UA-Speech database that contains dysarthric speech with different degrees of
severity. On the one hand, results show that attentional LSTM networks are able
to adequately modeling the modulation spectrograms sequences producing similar
classification rates as in the case of log-mel spectrograms. On the other hand,
both combination strategies, late and WP fusion, outperform the single-feature
systems, suggesting that per-frame log-mel and modulation spectrograms carry
complementary information for the task of speech intelligibility prediction,
than can be effectively exploited by the LSTM-based architectures, being the
system with the WP fusion strategy and Attention-Pooling the one that achieves
best results.
- Abstract(参考訳): 音声の理解性は、雑音環境、チャネル歪み、生理学的問題など、複数の要因に影響される可能性がある。
本研究では,後者の場合において,音声の明瞭度の自動予測の問題に対処する。
本研究の成果は,LSTMネットワークをベースとした非侵入型システムと,この課題に配慮したアテンション機構から,主に2つのコントリビューションを提示する。
第一に、重要な時間情報を捨てるコンパクトな表現の代わりに、フレーム単位の変調スペクトログラムを入力特徴として用いることを提案する。
第2に、LSTMフレームワークにフレーム単位の音響ログメルと変調スペクトログラムを組み合わせるための2つの異なる戦略について、判定レベルまたは遅延融合、発話レベルまたは重み付きポリシング(WP)融合について検討した。
提案手法は, 重度の異なる構音障害音声を含むua-speechデータベースを用いて評価した。
一方,注意力のあるlstmネットワークは,log-melspectrogramsの場合と同様の分類率を持つ変調スペクトログラムシーケンスを適切にモデル化できることを示した。
一方、後期と後期の融合とWP融合の組合せ戦略は、単一機能システムよりも優れており、フレームごとのログメルと変調スペクトログラムは、LSTMアーキテクチャによって効果的に活用できるよりも、音声の可聴性予測のタスクに相補的な情報を持ち、WP融合戦略を持つシステムである。
関連論文リスト
- Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - An Attention Long Short-Term Memory based system for automatic
classification of speech intelligibility [2.404313022991873]
本研究は,音声の可聴度を自動予測する非侵入システムの開発に焦点をあてる。
本研究の主な貢献は,ログメルスペクトログラムを入力として使用したLong Short-Term Memory Networkである。
提案手法は, 難易度が異なる変形性音声を含むUA-Speechデータベースを用いて評価した。
論文 参考訳(メタデータ) (2024-02-05T10:03:28Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Multi-Scale Spectrogram Modelling for Neural Text-to-Speech [19.42517284981061]
本稿では, 音声合成のためのマルチスケール・スペクトログラム(MSS)モデリング手法を提案する。
我々は、Word-level MSSとSentence-level MSSと呼ばれる2種類のMSSの詳細を述べる。
論文 参考訳(メタデータ) (2021-06-29T18:01:34Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Audio-Visual Decision Fusion for WFST-based and seq2seq Models [3.2771898634434997]
雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる
提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。
提案手法は音響のみのWERよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-01-29T13:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。