論文の概要: Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset
- arxiv url: http://arxiv.org/abs/2211.07307v1
- Date: Mon, 14 Nov 2022 12:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:49:48.049276
- Title: Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset
- Title(参考訳): クロスコーパス音声データセットのドメイン適応によるイタリア高齢者の感性認識
- Authors: Francesca Gasparini, Alessandra Grossi
- Abstract要約: 本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
- 参考スコア(独自算出の注目度): 77.99182201815763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this work is to define a speech emotion recognition (SER) model
able to recognize positive, neutral and negative emotions in natural
conversations of Italian elderly people. Several datasets for SER are available
in the literature. However most of them are in English or Chinese, have been
recorded while actors and actresses pronounce short phrases and thus are not
related to natural conversation. Moreover only few speeches among all the
databases are related to elderly people. Therefore, in this work, a
multi-language and multi-age corpus is considered merging a dataset in English,
that includes also elderly people, with a dataset in Italian. A general model,
trained on young and adult English actors and actresses is proposed, based on
XGBoost. Then two strategies of domain adaptation are proposed to adapt the
model either to elderly people and to Italian speakers. The results suggest
that this approach increases the classification performance, underlining also
that new datasets should be collected.
- Abstract(参考訳): 本研究の目的は、イタリア高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識できる音声感情認識(ser)モデルを定義することである。
ser用のいくつかのデータセットが文献に載っている。
しかし、ほとんどが英語または中国語で録音されており、俳優や女優が短いフレーズを発音しているため、自然な会話とは無関係である。
さらに、全てのデータベースの中で高齢者に関連するものはほとんどない。
そこで本研究では,多言語・多年齢コーパスが,イタリア語のデータセットを含む高齢者を含む英語のデータセットをマージすることを検討する。
若者や成人のイギリス人俳優や女優を対象とし,XGBoostに基づく一般モデルが提案されている。
次に、高齢者とイタリアの話者にモデルを適用するために、ドメイン適応の2つの戦略を提案する。
その結果,このアプローチにより分類性能が向上し,新たなデータセットの収集も可能となった。
関連論文リスト
- Experimenting with Affective Computing Models in Video Interviews with Spanish-speaking Older Adults [2.4866182704905495]
本研究では、高齢者が人または仮想アバターと対話する映像を用いて、最先端の感情コンピューティングモデルを評価する。
この取り組みの一環として、人間対人間のビデオインタビューに従事しているスペイン語話者の高齢者を対象とした新しいデータセットを紹介した。
論文 参考訳(メタデータ) (2025-01-28T11:42:15Z) - Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation [26.569097905515033]
エミリア (Emilia) は、第1の多言語音声生成データセットである。
Emiliaを216k時間を超えるデータセットであるEmilia-Largeに拡張することで、オープンソースの音声生成データセットとしては最大です。
論文 参考訳(メタデータ) (2025-01-27T09:59:20Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文 参考訳(メタデータ) (2023-06-26T08:48:08Z) - ITALIC: An Italian Intent Classification Dataset [16.970030804283745]
ITALICはイタリア語で意図分類用に設計された最初の大規模音声データセットである。
このデータセットは、イタリア各地の70人の話者が記録した16,521人のクラウドソースオーディオサンプルで構成されている。
意図分類の結果から,大規模化や言語適応の促進により,より優れた音声モデルが得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T13:36:24Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust
Elderly Speech Emotion Recognition [7.579298439023323]
本稿では,InterSPEECH 2020 Computational Paralinguistics Challenge (ComParE) への貢献について述べる。
本稿では,これらのタスクを最先端の音響的特徴と言語的特徴を用いてモデル化するバイモーダル・フレームワークを提案する。
本研究では,タスク固有の辞書やリソースを活用すれば,言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-09-07T21:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。