Fugu-MT 論文翻訳(概要): Hybrid Handcrafted and Learnable Audio Representation for Analysis of Speech Under Cognitive and Physical Load

論文の概要: Hybrid Handcrafted and Learnable Audio Representation for Analysis of Speech Under Cognitive and Physical Load

arxiv url: http://arxiv.org/abs/2203.16637v1
Date: Wed, 30 Mar 2022 19:43:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-01 14:10:22.829208
Title: Hybrid Handcrafted and Learnable Audio Representation for Analysis of Speech Under Cognitive and Physical Load
Title（参考訳）: 認知的・身体的負荷下における音声分析のためのハイブリットハンドクラフトと学習可能な音声表現
Authors: Gasser Elbanna, Alice Biryukov, Neil Scheidwasser-Clow, Lara Orlandic, Pablo Mainar, Mikolaj Kegler, Pierre Beckmann, Milos Cernak
Abstract要約: 音声におけるタスク負荷検出のための5つのデータセットを提案する。音声記録は、ボランティアのコホートに認知的ストレスまたは身体的ストレスが引き起こされたとして収集された。このデータセットを用いて、新たな自己教師型音声表現の設計と評価を行った。
参考スコア（独自算出の注目度）: 17.394964035035866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a neurophysiological response to threat or adverse conditions, stress can affect cognition, emotion and behaviour with potentially detrimental effects on health in the case of sustained exposure. Since the affective content of speech is inherently modulated by an individual's physical and mental state, a substantial body of research has been devoted to the study of paralinguistic correlates of stress-inducing task load. Historically, voice stress analysis (VSA) has been conducted using conventional digital signal processing (DSP) techniques. Despite the development of modern methods based on deep neural networks (DNNs), accurately detecting stress in speech remains difficult due to the wide variety of stressors and considerable variability in the individual stress perception. To that end, we introduce a set of five datasets for task load detection in speech. The voice recordings were collected as either cognitive or physical stress was induced in the cohort of volunteers, with a cumulative number of more than a hundred speakers. We used the datasets to design and evaluate a novel self-supervised audio representation that leverages the effectiveness of handcrafted features (DSP-based) and the complexity of data-driven DNN representations. Notably, the proposed approach outperformed both extensive handcrafted feature sets and novel DNN-based audio representation learning approaches.
Abstract（参考訳）: 脅威や副作用に対する神経生理学的反応として、ストレスは認知、感情、行動に影響を与え、健康に悪影響を及ぼす可能性がある。音声の感情内容は、個人の身体的および精神的な状態によって本質的に調節されるため、ストレス誘発タスク負荷のパラ言語的相関の研究にかなりの研究機関が費やされている。これまで,従来のデジタル信号処理 (DSP) 技術を用いて音声ストレス解析 (VSA) が実施されてきた。ディープ・ニューラル・ネットワーク(DNN)に基づく現代的な手法の開発にもかかわらず、様々なストレス要因と個人的ストレス知覚のかなりの変動により、音声中のストレスを正確に検出することは困難である。そこで本研究では,音声におけるタスク負荷検出のための5つのデータセットを提案する。音声記録は、ボランティアのコホートにおいて認知的ストレスまたは身体的ストレスが誘発され、100人以上の話者が累計で記録された。このデータセットを用いて、手作り特徴(DSP)の有効性とデータ駆動型DNN表現の複雑さを活用した、新しい自己教師型音声表現の設計と評価を行った。特に,提案手法は,広範囲な手作り特徴セットと,新しいDNNベースの音声表現学習手法よりも優れていた。

関連論文リスト

CAST-Phys: Contactless Affective States Through Physiological signals Database [74.28082880875368]
感情的なマルチモーダルデータセットの欠如は、正確な感情認識システムを開発する上で、依然として大きなボトルネックとなっている。遠隔の生理的感情認識が可能な新しい高品質なデータセットであるCAST-Physを提示する。本分析では,表情だけでは十分な感情情報が得られない現実的なシナリオにおいて,生理的信号が重要な役割を担っていることを強調した。
論文参考訳（メタデータ） (2025-07-08T15:20:24Z)
Decoding Phone Pairs from MEG Signals Across Speech Modalities [0.4054486015338004]
脳磁図信号を用いて、音声生成や知覚タスク中の脳活動から携帯電話を復号する方法について検討した。その結果,受動聴取や再生モダリティと比較して,音声生成時の復号精度が有意に高かった。
論文参考訳（メタデータ） (2025-05-21T10:31:34Z)
Fine-Tuning Whisper for Inclusive Prosodic Stress Analysis [2.818750423530918]
本研究では,OpenAIのWhisper large-v2 ASRモデルを用いて,音声におけるフレーズ,語彙,コントラスト的ストレスを認識する。 66人のネイティブ英語話者のデータセットを用いて、ストレスパターンを一般化し、ニューロタイプとジェンダーで話者を分類するモデルの能力を評価する。
論文参考訳（メタデータ） (2025-03-03T16:48:31Z)
Predicting Heart Activity from Speech using Data-driven and Knowledge-based features [19.14666002797423]
自己教師型音声モデルは, 心臓活動パラメータの予測において, 音響特性よりも優れていることを示す。これらの結果は、こうしたタスクにおけるデータ駆動型表現の価値を浮き彫りにした。
論文参考訳（メタデータ） (2024-06-10T15:01:46Z)
Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文参考訳（メタデータ） (2024-05-03T02:59:15Z)
Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文参考訳（メタデータ） (2024-04-22T09:40:07Z)
Personalization of Stress Mobile Sensing using Self-Supervised Learning [1.7598252755538808]
ストレスは様々な健康問題への主要な貢献者として広く認められている。リアルタイムのストレス予測は、デジタル介入がストレスの開始時に即座に反応し、心臓のリズム不規則性のような多くの心理的、生理的症状を避けるのに役立つ。しかし、機械学習を用いたストレス予測の主な課題は、ラベルの主観性とスパース性、大きな特徴空間、比較的少ないラベル、特徴と結果の間の複雑な非線形および主観的関係である。
論文参考訳（メタデータ） (2023-08-04T22:26:33Z)
Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文参考訳（メタデータ） (2022-08-25T10:01:43Z)
Neural Language Models are not Born Equal to Fit Brain Data, but Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文参考訳（メタデータ） (2022-07-07T15:37:17Z)
Insights on Modelling Physiological, Appraisal, and Affective Indicators of Stress using Audio Features [10.093374748790037]
被験者がストレスエピソードを誘発している最中に収集した音声サンプルを用いて、個人ストレス応答の自動的特徴付けの有望な結果を示した。我々は, 音声信号が生理的バイオマーカーのモデル化に適しているかどうかについて, 新たな知見を提示する。
論文参考訳（メタデータ） (2022-05-09T14:32:38Z)
The world seems different in a social context: a neural network analysis of human experimental data [57.729312306803955]
本研究では,先行・知覚的信号の精度を変化させることで,個人・社会的タスク設定の両方で人間の行動データを再現可能であることを示す。トレーニングされたネットワークの神経活性化トレースの分析は、情報が個人や社会的条件のネットワークにおいて、根本的に異なる方法でコード化されていることを示す。
論文参考訳（メタデータ） (2022-03-03T17:19:12Z)
Preliminary study on using vector quantization latent spaces for TTS/VC systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文参考訳（メタデータ） (2021-06-25T07:51:35Z)
Emotion Recognition of the Singing Voice: Toward a Real-Time Analysis Tool for Singers [0.0]
現在の計算感情研究は、感情が数学的に知覚される方法を分析するために音響特性を適用することに焦点を当てている。本稿は,関連する研究の知見を反映し,拡張し,この目標に向けての一歩を踏み出す。
論文参考訳（メタデータ） (2021-05-01T05:47:15Z)
Deep Recurrent Encoder: A scalable end-to-end network to model brain signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。 1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文参考訳（メタデータ） (2021-03-03T11:39:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。