論文の概要: An Attention Long Short-Term Memory based system for automatic
classification of speech intelligibility
- arxiv url: http://arxiv.org/abs/2402.02850v1
- Date: Mon, 5 Feb 2024 10:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:57:21.617089
- Title: An Attention Long Short-Term Memory based system for automatic
classification of speech intelligibility
- Title(参考訳): 音声明瞭度の自動分類のための注意型短期記憶ベースシステム
- Authors: Miguel Fern\'andez-D\'iaz and Ascensi\'on Gallardo-Antol\'in
- Abstract要約: 本研究は,音声の可聴度を自動予測する非侵入システムの開発に焦点をあてる。
本研究の主な貢献は,ログメルスペクトログラムを入力として使用したLong Short-Term Memory Networkである。
提案手法は, 難易度が異なる変形性音声を含むUA-Speechデータベースを用いて評価した。
- 参考スコア(独自算出の注目度): 2.404313022991873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech intelligibility can be degraded due to multiple factors, such as noisy
environments, technical difficulties or biological conditions. This work is
focused on the development of an automatic non-intrusive system for predicting
the speech intelligibility level in this latter case. The main contribution of
our research on this topic is the use of Long Short-Term Memory (LSTM) networks
with log-mel spectrograms as input features for this purpose. In addition, this
LSTM-based system is further enhanced by the incorporation of a simple
attention mechanism that is able to determine the more relevant frames to this
task. The proposed models are evaluated with the UA-Speech database that
contains dysarthric speech with different degrees of severity. Results show
that the attention LSTM architecture outperforms both, a reference Support
Vector Machine (SVM)-based system with hand-crafted features and a LSTM-based
system with Mean-Pooling.
- Abstract(参考訳): 音声の難易度は、ノイズ環境、技術的困難、生物学的条件など、複数の要因により劣化することがある。
本研究は,後者の場合において,音声の可聴度を自動予測する非侵入システムの開発に焦点をあてる。
本研究の主な貢献は,ログメルスペクトログラムを入力として用いたLong Short-Term Memory (LSTM)ネットワークの利用である。
さらに、このlstmベースのシステムは、このタスクにより関連するフレームを決定できる単純な注意機構を組み込むことにより、さらに強化されている。
提案手法は, 重度の異なる構音障害音声を含むua-speechデータベースを用いて評価した。
その結果、LSTMアーキテクチャは、手作り機能付きサポートベクトルマシン(SVM)ベースのシステムと、平均ポリシングによるLSTMベースのシステムの両方に優れていた。
関連論文リスト
- Improving Membership Inference in ASR Model Auditing with Perturbed Loss Features [32.765965044767356]
メンバーシップ推論(MI)は、自動音声認識(ASR)システムのトレーニングデータに対して、かなりのプライバシー上の脅威となる。
本稿では,ASRモデルにおけるMIを実現するために,ガウスと逆方向の摂動を併用した損失に基づく特徴量の有効性について検討する。
論文 参考訳(メタデータ) (2024-05-02T11:48:30Z) - On combining acoustic and modulation spectrograms in an attention
LSTM-based system for speech intelligibility level classification [0.0]
本稿では,音声の了解度予測のためのアテンション機構を備えたLSTMネットワークに基づく非侵入システムを提案する。
LSTMフレームワークにフレームごとの音響ログメルと変調スペクトログラムを組み合わせるための2つの異なる戦略について検討した。
提案手法は, 難易度が異なる変形性音声を含むUA-Speechデータベースを用いて評価した。
論文 参考訳(メタデータ) (2024-02-05T10:26:28Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Network Level Spatial Temporal Traffic State Forecasting with Hierarchical Attention LSTM (HierAttnLSTM) [0.0]
本稿では,オープンベンチマークにホストされたPeMS(Caltrans Performance Measurement System)から,多様なトラフィック状態データセットを活用する。
我々は,低レベルから高レベルLong Short-Term Memory (LSTM) ネットワーク間のセルおよび隠れ状態とアテンションプーリング機構を統合した。
構築された階層構造は、ネットワークレベルのトラフィック状態の空間的時間的相関をキャプチャして、異なる時間スケールにまたがる依存関係を考慮に入れられるように設計されている。
論文 参考訳(メタデータ) (2022-01-15T05:25:03Z) - Learning Spatio-Temporal Specifications for Dynamical Systems [0.757024681220677]
データからの論理仕様として学習時空間(ST特性)のフレームワークを提案する。
本稿では,SVM-STL(Signal Signal Temporal Logic:信号時空間論理)の拡張について紹介する。
本フレームワークは,SVM-STL仕様を空間パターンのシーケンスによって与えられるシステム実行から学習するために,機械学習技術を利用する。
論文 参考訳(メタデータ) (2021-12-20T18:03:01Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Capturing Multi-Resolution Context by Dilated Self-Attention [58.69803243323346]
限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-04-07T02:04:18Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。