論文の概要: Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.14517v1
- Date: Mon, 26 Jun 2023 08:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:25:32.530236
- Title: Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition
- Title(参考訳): 低リソース高齢者感情認識のための言語間クロスエイジグループ適応
- Authors: Samuel Cahyawijaya, Holy Lovenia, Willy Chung, Rita Frieske, Zihan
Liu, Pascale Fung
- Abstract要約: 我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
- 参考スコア(独自算出の注目度): 48.29355616574199
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech emotion recognition plays a crucial role in human-computer
interactions. However, most speech emotion recognition research is biased
toward English-speaking adults, which hinders its applicability to other
demographic groups in different languages and age groups. In this work, we
analyze the transferability of emotion recognition across three different
languages--English, Mandarin Chinese, and Cantonese; and 2 different age
groups--adults and the elderly. To conduct the experiment, we develop an
English-Mandarin speech emotion benchmark for adults and the elderly, BiMotion,
and a Cantonese speech emotion dataset, YueMotion. This study concludes that
different language and age groups require specific speech features, thus making
cross-lingual inference an unsuitable method. However, cross-group data
augmentation is still beneficial to regularize the model, with linguistic
distance being a significant influence on cross-lingual transferability. We
release publicly release our code at https://github.com/HLTCHKUST/elderly_ser.
- Abstract(参考訳): 音声の感情認識は人間とコンピュータの相互作用において重要な役割を果たす。
しかし、ほとんどの音声感情認識研究は英語圏の成人に偏りがあり、異なる言語や年齢集団の他の人口集団にも適用できなくなる。
本研究では,3つの言語(英語,中国語,カント語)における感情認識の伝達可能性と,高齢者と高齢者の2つの異なる年齢層について分析した。
この実験を行うために、成人および高齢者のための英語-マンダリン音声感情ベンチマーク、BiMotion、およびCantonese音声感情データセットYueMotionを開発した。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論づける。
しかし、言語間距離が言語間移動性に大きな影響を及ぼすため、群間データ拡張はモデルの正規化に有用である。
私たちはコードをhttps://github.com/hltchkust/elderly_serで公開しています。
関連論文リスト
- Cross-lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models [16.0617753653454]
本研究では,人間のパフォーマンスとSSLモデルの比較分析を行った。
また、モデルと人間のSER能力を発話レベルとセグメントレベルの両方で比較する。
その結果,適切な知識伝達を行うモデルでは,対象言語に適応し,ネイティブ話者に匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-09-25T13:27:17Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Learning Multilingual Expressive Speech Representation for Prosody
Prediction without Parallel Data [0.0]
本稿では,個別音声単位のレベルで音声から音声への感情翻訳を行う手法を提案する。
この埋め込みは、対象言語における音声単位のピッチと持続時間を予測するのに有効であることを示す。
我々は、英語とフランス語の音声信号に対する我々のアプローチを評価し、ベースライン法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:06:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset [77.99182201815763]
本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
論文 参考訳(メタデータ) (2022-11-14T12:39:41Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Is Speech Emotion Recognition Language-Independent? Analysis of English
and Bangla Languages using Language-Independent Vocal Features [4.446085353384894]
我々はバングラ語と英語を用いて、感情と音声の区別が言語に依存しているかどうかを評価した。
この研究では、幸福、怒り、中立、悲しみ、嫌悪、恐怖といった感情が分類された。
本研究は、音声感情認識(SER)が言語に依存しないことを明らかにするが、この2つの言語では嫌悪感や恐怖といった感情状態を認識しながら、多少の相違がある。
論文 参考訳(メタデータ) (2021-11-21T09:28:49Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。