論文の概要: Applying Speech Tempo-Derived Features, BoAW and Fisher Vectors to
Detect Elderly Emotion and Speech in Surgical Masks
- arxiv url: http://arxiv.org/abs/2008.03183v1
- Date: Fri, 7 Aug 2020 13:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:48:40.053489
- Title: Applying Speech Tempo-Derived Features, BoAW and Fisher Vectors to
Detect Elderly Emotion and Speech in Surgical Masks
- Title(参考訳): 外科用マスクの老年者感情・音声検出のための音声テンポ発達特徴, BoAW, 釣りベクトルの適用
- Authors: G\'abor Gosztolya and L\'aszl\'o T\'oth
- Abstract要約: 高齢者の感情とマスクのサブチャレンジに焦点をあてる。
我々は感情が発話の速度に関係していることを生かしている。
また, 手術用マスクを装着することで, 話者の不安感が増し, 発声速度が遅くなり, ためらいが増すという仮説を立てた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 2020 INTERSPEECH Computational Paralinguistics Challenge (ComParE)
consists of three Sub-Challenges, where the tasks are to identify the level of
arousal and valence of elderly speakers, determine whether the actual speaker
wearing a surgical mask, and estimate the actual breathing of the speaker. In
our contribution to the Challenge, we focus on the Elderly Emotion and the Mask
sub-challenges. Besides utilizing standard or close-to-standard features such
as ComParE functionals, Bag-of-Audio-Words and Fisher vectors, we exploit that
emotion is related to the velocity of speech (i.e. speech rate). To utilize
this, we perform phone-level recognition using an ASR system, and extract
features from the output such as articulation tempo, speech tempo, and various
attributes measuring the amount of pauses. We also hypothesize that wearing a
surgical mask makes the speaker feel uneasy, leading to a slower speech rate
and more hesitations; hence, we experiment with the same features in the Mask
sub-challenge as well. Although this theory was not justified by the
experimental results on the Mask Sub-Challenge, in the Elderly Emotion
Sub-Challenge we got significantly improved arousal and valence values with
this feature type both on the development set and in cross-validation.
- Abstract(参考訳): 2020年のinterspeech computational paralinguistics challenge (compare) は、高齢者の話者の覚醒レベルとヴァレンスを識別し、実際の話者が手術用マスクを着用しているかどうかを判断し、話者の実際の呼吸を推定する3つのサブチャレントで構成される。
チャレンジへのコントリビューションでは,高齢者の感情とマスクのサブチャレンジに焦点をあてる。
ComParE関数やBag-of-Audio-Words,Fisherベクターなどの標準的・標準的特徴を活用することに加えて,感情が発話速度(音声速度)に関係していることを活用する。
これを利用するために,asrシステムを用いて電話レベル認識を行い,発話テンポ,発話テンポ,ポーズ量を測定する各種属性などの出力から特徴を抽出する。
また, 手術用マスクを装着することで, 話者の不安感が増し, 発声速度が遅くなり, 動揺感が増すという仮説を立てた。
Mask Sub-Challengeの実験結果では,この理論は正当化されなかったが,高齢者の感情サブ-Challengeでは,開発セットとクロスバリデーションの両方において,この特徴型による覚醒値と価値を有意に改善した。
関連論文リスト
- Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Cross-speaker Emotion Transfer by Manipulating Speech Style Latents [7.384726530165295]
本稿では,潜在型空間におけるベクトル演算を用いた話者間感情伝達と操作のための新しい手法を提案する。
少数のラベル付きサンプルを活用することで、話者のアイデンティティを損なうことなく、読み上げスタイルの音声から感情的な音声を生成する。
論文 参考訳(メタデータ) (2023-03-15T02:34:03Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - I Only Have Eyes for You: The Impact of Masks On Convolutional-Based
Facial Expression Recognition [78.07239208222599]
今回提案したFaceChannelがマスクを持つ人からの表情認識にどのように適応するかを評価します。
また、制約された社会的相互作用シナリオにおける顔の特徴の変化を学習し、組み合わせるためのFaceChannelの本質的な能力を示すために、特定の機能レベルの可視化も行います。
論文 参考訳(メタデータ) (2021-04-16T20:03:30Z) - Speaker Attentive Speech Emotion Recognition [11.92436948211501]
音声感情認識(SER)タスクは、DNN(Deep Neural Networks)の出現により、ここ数年で大幅に改善されました。
スピーカーのアイデンティティについて感情認識ネットワークを教えるというアイデアに基づく新しい作品を紹介します。
論文 参考訳(メタデータ) (2021-04-15T07:59:37Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z) - They are wearing a mask! Identification of Subjects Wearing a Surgical
Mask from their Speech by means of x-vectors and Fisher Vectors [0.0]
InterSPEECH 2020 Computational Paralinguistics Challengeには3つの異なる問題がある。
この課題は、手術用マスクを着用している被験者から録音された音声の分類である。
本研究では,上記の問題に対処するために,2種類の特徴抽出手法を用いる。
論文 参考訳(メタデータ) (2020-08-23T11:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。