論文の概要: Automatic Analysis of the Emotional Content of Speech in Daylong
Child-Centered Recordings from a Neonatal Intensive Care Unit
- arxiv url: http://arxiv.org/abs/2106.09539v1
- Date: Mon, 14 Jun 2021 11:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:35:49.274879
- Title: Automatic Analysis of the Emotional Content of Speech in Daylong
Child-Centered Recordings from a Neonatal Intensive Care Unit
- Title(参考訳): 新生児集中治療室における日中の児童中心録音における音声の感情的内容の自動分析
- Authors: Einari Vaaras, Sari Ahlqvist-Bj\"orkroth, Konstantinos Drossos, Okko
R\"as\"anen
- Abstract要約: フィンランドとエストニアの2つの病院から、幼児の音声環境から毎日何百時間もの録音が収集された。
本稿では、当初未発表の大規模実世界の音声データセットを導入し、フィンランドのサブセットを対象とした機能的SERシステムの開発について述べる。
最適性能モデルは73.4%の非重み付き平均リコールの分類性能を達成可能であることを示す。
- 参考スコア(独自算出の注目度): 3.7373314439051106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have recently started to study how the emotional speech heard by
young infants can affect their developmental outcomes. As a part of this
research, hundreds of hours of daylong recordings from preterm infants' audio
environments were collected from two hospitals in Finland and Estonia in the
context of so-called APPLE study. In order to analyze the emotional content of
speech in such a massive dataset, an automatic speech emotion recognition (SER)
system is required. However, there are no emotion labels or existing indomain
SER systems to be used for this purpose. In this paper, we introduce this
initially unannotated large-scale real-world audio dataset and describe the
development of a functional SER system for the Finnish subset of the data. We
explore the effectiveness of alternative state-of-the-art techniques to deploy
a SER system to a new domain, comparing cross-corpus generalization, WGAN-based
domain adaptation, and active learning in the task. As a result, we show that
the best-performing models are able to achieve a classification performance of
73.4% unweighted average recall (UAR) and 73.2% UAR for a binary classification
for valence and arousal, respectively. The results also show that active
learning achieves the most consistent performance compared to the two
alternatives.
- Abstract(参考訳): 最近、幼児の感情的な声が発達の成果にどう影響するか、研究が始まっています。
この研究の一環として、フィンランドとエストニアの2つの病院から、幼児のオーディオ環境からの数百時間にわたる記録を、いわゆるAPPLE研究の文脈で収集した。
このような膨大なデータセットで音声の感情内容を分析するためには、自動音声感情認識(ser)システムが必要である。
しかし、この目的のために使用する感情ラベルや既存のドメイン内サーシステムは存在しない。
本稿では,この無注の大規模実世界音声データセットを紹介し,フィンランドのサブセットを対象とした機能的serシステムの開発について述べる。
我々は、SERシステムを新しいドメインにデプロイするための代替技術の有効性について検討し、クロスコーパスの一般化、WGANベースのドメイン適応、タスクにおけるアクティブラーニングを比較した。
その結果、最良性能モデルはそれぞれ73.4%の非重み付き平均リコール(UAR)と73.2%のUARを有価値と覚醒値のバイナリ分類で達成できることが判明した。
その結果、アクティブラーニングは2つの選択肢と比較して最も一貫したパフォーマンスを達成できることが示された。
関連論文リスト
- Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Psychophysiological Arousal in Young Children Who Stutter: An
Interpretable AI Approach [6.507353572917133]
本研究は, 幼児期(CWS)児における, 子ども期(CWNS)児の生理的覚醒における第2・第2パターンの差異を効果的に把握し, 可視化するものである。
後者は言語的、認知的、コミュニケーション的要求を話者に導入する。
論文 参考訳(メタデータ) (2022-08-03T13:28:15Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust
Elderly Speech Emotion Recognition [7.579298439023323]
本稿では,InterSPEECH 2020 Computational Paralinguistics Challenge (ComParE) への貢献について述べる。
本稿では,これらのタスクを最先端の音響的特徴と言語的特徴を用いてモデル化するバイモーダル・フレームワークを提案する。
本研究では,タスク固有の辞書やリソースを活用すれば,言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-09-07T21:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。