論文の概要: Hybrid Handcrafted and Learnable Audio Representation for Analysis of
Speech Under Cognitive and Physical Load
- arxiv url: http://arxiv.org/abs/2203.16637v1
- Date: Wed, 30 Mar 2022 19:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 14:10:22.829208
- Title: Hybrid Handcrafted and Learnable Audio Representation for Analysis of
Speech Under Cognitive and Physical Load
- Title(参考訳): 認知的・身体的負荷下における音声分析のためのハイブリットハンドクラフトと学習可能な音声表現
- Authors: Gasser Elbanna, Alice Biryukov, Neil Scheidwasser-Clow, Lara Orlandic,
Pablo Mainar, Mikolaj Kegler, Pierre Beckmann, Milos Cernak
- Abstract要約: 音声におけるタスク負荷検出のための5つのデータセットを提案する。
音声記録は、ボランティアのコホートに認知的ストレスまたは身体的ストレスが引き起こされたとして収集された。
このデータセットを用いて、新たな自己教師型音声表現の設計と評価を行った。
- 参考スコア(独自算出の注目度): 17.394964035035866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a neurophysiological response to threat or adverse conditions, stress can
affect cognition, emotion and behaviour with potentially detrimental effects on
health in the case of sustained exposure. Since the affective content of speech
is inherently modulated by an individual's physical and mental state, a
substantial body of research has been devoted to the study of paralinguistic
correlates of stress-inducing task load. Historically, voice stress analysis
(VSA) has been conducted using conventional digital signal processing (DSP)
techniques. Despite the development of modern methods based on deep neural
networks (DNNs), accurately detecting stress in speech remains difficult due to
the wide variety of stressors and considerable variability in the individual
stress perception. To that end, we introduce a set of five datasets for task
load detection in speech. The voice recordings were collected as either
cognitive or physical stress was induced in the cohort of volunteers, with a
cumulative number of more than a hundred speakers. We used the datasets to
design and evaluate a novel self-supervised audio representation that leverages
the effectiveness of handcrafted features (DSP-based) and the complexity of
data-driven DNN representations. Notably, the proposed approach outperformed
both extensive handcrafted feature sets and novel DNN-based audio
representation learning approaches.
- Abstract(参考訳): 脅威や副作用に対する神経生理学的反応として、ストレスは認知、感情、行動に影響を与え、健康に悪影響を及ぼす可能性がある。
音声の感情内容は、個人の身体的および精神的な状態によって本質的に調節されるため、ストレス誘発タスク負荷のパラ言語的相関の研究にかなりの研究機関が費やされている。
これまで,従来のデジタル信号処理 (DSP) 技術を用いて音声ストレス解析 (VSA) が実施されてきた。
ディープ・ニューラル・ネットワーク(DNN)に基づく現代的な手法の開発にもかかわらず、様々なストレス要因と個人的ストレス知覚のかなりの変動により、音声中のストレスを正確に検出することは困難である。
そこで本研究では,音声におけるタスク負荷検出のための5つのデータセットを提案する。
音声記録は、ボランティアのコホートにおいて認知的ストレスまたは身体的ストレスが誘発され、100人以上の話者が累計で記録された。
このデータセットを用いて、手作り特徴(DSP)の有効性とデータ駆動型DNN表現の複雑さを活用した、新しい自己教師型音声表現の設計と評価を行った。
特に,提案手法は,広範囲な手作り特徴セットと,新しいDNNベースの音声表現学習手法よりも優れていた。
関連論文リスト
- Personalization of Stress Mobile Sensing using Self-Supervised Learning [1.7598252755538808]
ストレスは様々な健康問題への主要な貢献者として広く認められている。
リアルタイムのストレス予測は、デジタル介入がストレスの開始時に即座に反応し、心臓のリズム不規則性のような多くの心理的、生理的症状を避けるのに役立つ。
しかし、機械学習を用いたストレス予測の主な課題は、ラベルの主観性とスパース性、大きな特徴空間、比較的少ないラベル、特徴と結果の間の複雑な非線形および主観的関係である。
論文 参考訳(メタデータ) (2023-08-04T22:26:33Z) - DEPAC: a Corpus for Depression and Anxiety Detection from Speech [3.2154432166999465]
本稿では、うつ病と不安スクリーニングツールの確立したしきい値に基づいてラベル付けされた、心的苦痛分析オーディオデータセットDEPACを紹介する。
この大きなデータセットは、個人ごとの複数の音声タスクと、関連する人口統計情報から構成される。
人間の音声における精神疾患の徴候の同定に有効な,手作業による音響的特徴と言語的特徴からなる特徴セットを提案する。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Insights on Modelling Physiological, Appraisal, and Affective Indicators
of Stress using Audio Features [10.093374748790037]
被験者がストレスエピソードを誘発している最中に収集した音声サンプルを用いて、個人ストレス応答の自動的特徴付けの有望な結果を示した。
我々は, 音声信号が生理的バイオマーカーのモデル化に適しているかどうかについて, 新たな知見を提示する。
論文 参考訳(メタデータ) (2022-05-09T14:32:38Z) - The world seems different in a social context: a neural network analysis
of human experimental data [57.729312306803955]
本研究では,先行・知覚的信号の精度を変化させることで,個人・社会的タスク設定の両方で人間の行動データを再現可能であることを示す。
トレーニングされたネットワークの神経活性化トレースの分析は、情報が個人や社会的条件のネットワークにおいて、根本的に異なる方法でコード化されていることを示す。
論文 参考訳(メタデータ) (2022-03-03T17:19:12Z) - Enhancing Affective Representations of Music-Induced EEG through
Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。
我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。
脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文 参考訳(メタデータ) (2022-02-20T07:32:12Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Emotion Recognition of the Singing Voice: Toward a Real-Time Analysis
Tool for Singers [0.0]
現在の計算感情研究は、感情が数学的に知覚される方法を分析するために音響特性を適用することに焦点を当てている。
本稿は,関連する研究の知見を反映し,拡張し,この目標に向けての一歩を踏み出す。
論文 参考訳(メタデータ) (2021-05-01T05:47:15Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。