論文の概要: Speaker Embeddings as Individuality Proxy for Voice Stress Detection
- arxiv url: http://arxiv.org/abs/2306.05915v1
- Date: Fri, 9 Jun 2023 14:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:59:50.423972
- Title: Speaker Embeddings as Individuality Proxy for Voice Stress Detection
- Title(参考訳): 音声ストレス検出のための個人性プロキシとしての話者埋め込み
- Authors: Zihan Wu, Neil Scheidwasser-Clow, Karl El Hajal, Milos Cernak
- Abstract要約: 話者の精神状態は音声を変調するため、認知的あるいは身体的負荷によって引き起こされるストレスを音声で検出することができる。
既存の音声ストレス検出ベンチマークでは,Hybrid BYOL-S自己教師モデルから抽出した音声の埋め込みが良好に動作することが示された。
本稿では,9つの言語グループと5つの異なるタイプのストレスから100人以上の話者を対象に訓練された音声ストレス検出の設計と開発について述べる。
- 参考スコア(独自算出の注目度): 14.332772222772668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the mental states of the speaker modulate speech, stress introduced by
cognitive or physical loads could be detected in the voice. The existing voice
stress detection benchmark has shown that the audio embeddings extracted from
the Hybrid BYOL-S self-supervised model perform well. However, the benchmark
only evaluates performance separately on each dataset, but does not evaluate
performance across the different types of stress and different languages.
Moreover, previous studies found strong individual differences in stress
susceptibility. This paper presents the design and development of voice stress
detection, trained on more than 100 speakers from 9 language groups and five
different types of stress. We address individual variabilities in voice stress
analysis by adding speaker embeddings to the hybrid BYOL-S features. The
proposed method significantly improves voice stress detection performance with
an input audio length of only 3-5 seconds.
- Abstract(参考訳): 話者の精神状態は音声を変調するため、認知的あるいは身体的負荷によって引き起こされるストレスを音声で検出することができる。
既存の音声ストレス検出ベンチマークでは,ハイブリッドbyol-s自己教師モデルから抽出した音声埋め込みが良好であることが示されている。
しかし、ベンチマークはデータセットごとに個別にパフォーマンスを評価するだけで、異なるタイプのストレスと異なる言語のパフォーマンスを評価することはない。
さらに, ストレス感受性には強い個人差が認められた。
本稿では,9言語グループと5種類のストレスから100人以上の話者を対象に訓練した音声ストレス検出の設計と開発について述べる。
話者埋め込みをハイブリッドBYOL-Sに付加することで音声ストレス解析における個人差に対処する。
提案手法は入力音声長がわずか3~5秒で音声応力検出性能を大幅に向上させる。
関連論文リスト
- Detecting Syllable-Level Pronunciation Stress with A Self-Attention
Model [0.0]
話し言葉の音節ごとのストレスレベルを知ることは、英語話者や学習者にとって重要である。
本稿では,話し言葉の各音節のストレスレベルを同定する自己注意モデルを提案する。
論文 参考訳(メタデータ) (2023-11-01T05:05:49Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Hybrid Handcrafted and Learnable Audio Representation for Analysis of
Speech Under Cognitive and Physical Load [17.394964035035866]
音声におけるタスク負荷検出のための5つのデータセットを提案する。
音声記録は、ボランティアのコホートに認知的ストレスまたは身体的ストレスが引き起こされたとして収集された。
このデータセットを用いて、新たな自己教師型音声表現の設計と評価を行った。
論文 参考訳(メタデータ) (2022-03-30T19:43:21Z) - Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文 参考訳(メタデータ) (2022-01-19T22:14:49Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。