論文の概要: A Novel Fusion of Attention and Sequence to Sequence Autoencoders to
Predict Sleepiness From Speech
- arxiv url: http://arxiv.org/abs/2005.08722v2
- Date: Tue, 19 May 2020 16:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:51:58.098093
- Title: A Novel Fusion of Attention and Sequence to Sequence Autoencoders to
Predict Sleepiness From Speech
- Title(参考訳): 音声による睡眠予測のための自動エンコーダの意図とシーケンスの新たな融合
- Authors: Shahin Amiriparian, Pawel Winokurow, Vincent Karas, Sandra Ottl,
Maurice Gerczuk, Bj\"orn W. Schuller
- Abstract要約: 音声ファイルから完全に教師なしの表現学習を行うシーケンシャルオートエンコーダに、アテンションベースおよびリカレントシーケンスを導入する。
音声による睡眠認識の課題に対する新しいアプローチの有効性を検証した。
- 参考スコア(独自算出の注目度): 4.742433248058888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the attention mechanism of the human visual system and recent
developments in the field of machine translation, we introduce our
attention-based and recurrent sequence to sequence autoencoders for fully
unsupervised representation learning from audio files. In particular, we test
the efficacy of our novel approach on the task of speech-based sleepiness
recognition. We evaluate the learnt representations from both autoencoders, and
then conduct an early fusion to ascertain possible complementarity between
them. In our frameworks, we first extract Mel-spectrograms from raw audio
files. Second, we train recurrent autoencoders on these spectrograms which are
considered as time-dependent frequency vectors. Afterwards, we extract the
activations of specific fully connected layers of the autoencoders which
represent the learnt features of spectrograms for the corresponding audio
instances. Finally, we train support vector regressors on these representations
to obtain the predictions. On the development partition of the data, we achieve
Spearman's correlation coefficients of .324, .283, and .320 with the targets on
the Karolinska Sleepiness Scale by utilising attention and non-attention
autoencoders, and the fusion of both autoencoders' representations,
respectively. In the same order, we achieve .311, .359, and .367 Spearman's
correlation coefficients on the test data, indicating the suitability of our
proposed fusion strategy.
- Abstract(参考訳): 人間の視覚系の注意機構と機械翻訳の分野での最近の発展に触発され、音声ファイルから完全に教師なしの表現学習のためのシーケンスオートエンコーダに注意ベースおよび繰り返しシーケンスを導入する。
特に,音声に基づく眠気認識の課題に対する新しいアプローチの有効性を検証した。
両オートエンコーダからの学習表現を評価し,それらの相補性を確認するために早期融合を行う。
本フレームワークでは,まず,生音声ファイルからメルスペクトルを抽出する。
第2に、時間依存周波数ベクトルと見なされるこれらのスペクトログラム上で再帰オートエンコーダを訓練する。
その後、対応するオーディオインスタンスに対するスペクトログラムの学習的特徴を表すオートエンコーダの特定の完全連結層のアクティベーションを抽出する。
最後に,これらの表現に対してサポートベクトルレグレッシャを訓練し,予測を行う。
データの開発分割では,注意力と非注意自動エンコーダを用いて,カロリンスカ覚醒尺度の目標値である.324,.283,.320のスピアマン相関係数をそれぞれ達成し,両オートエンコーダの表現を融合させる。
同じ順序で、我々は試験データ上の.311, .359, .367の相関係数を達成し、提案した融合戦略の適合性を示した。
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Convolutional Variational Autoencoders for Spectrogram Compression in Automatic Speech Recognition [0.0]
本稿では、畳み込み変分オートエンコーダ(VAE)に基づく圧縮スペクトログラム表現の代替手法を提案する。
畳み込みVAEモデルは、13次元の埋め込みから短いオーディオスペクトログラム(25ms)の断片を再構成するために、LibriSpeechデータセットのサブサンプルで訓練された。
トレーニングされた40次元(300ms)の埋め込みモデルは、GoogleSpeechCommandsデータセットで音声コマンドのコーパスを生成するために使用された。
論文 参考訳(メタデータ) (2024-10-03T15:04:27Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Automatic Feature Extraction for Heartbeat Anomaly Detection [7.054093620465401]
医療における異常検出の応用を目的とした、生音声の心拍音の自動抽出に着目する。
1次元非コーダ畳み込みエンコーダとウェーブネットデコーダで構成したオートエンコーダの助けを借りて,特徴を学習する。
論文 参考訳(メタデータ) (2021-02-24T13:55:24Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。