論文の概要: Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset
- arxiv url: http://arxiv.org/abs/2211.07307v1
- Date: Mon, 14 Nov 2022 12:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:49:48.049276
- Title: Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset
- Title(参考訳): クロスコーパス音声データセットのドメイン適応によるイタリア高齢者の感性認識
- Authors: Francesca Gasparini, Alessandra Grossi
- Abstract要約: 本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
- 参考スコア(独自算出の注目度): 77.99182201815763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this work is to define a speech emotion recognition (SER) model
able to recognize positive, neutral and negative emotions in natural
conversations of Italian elderly people. Several datasets for SER are available
in the literature. However most of them are in English or Chinese, have been
recorded while actors and actresses pronounce short phrases and thus are not
related to natural conversation. Moreover only few speeches among all the
databases are related to elderly people. Therefore, in this work, a
multi-language and multi-age corpus is considered merging a dataset in English,
that includes also elderly people, with a dataset in Italian. A general model,
trained on young and adult English actors and actresses is proposed, based on
XGBoost. Then two strategies of domain adaptation are proposed to adapt the
model either to elderly people and to Italian speakers. The results suggest
that this approach increases the classification performance, underlining also
that new datasets should be collected.
- Abstract(参考訳): 本研究の目的は、イタリア高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識できる音声感情認識(ser)モデルを定義することである。
ser用のいくつかのデータセットが文献に載っている。
しかし、ほとんどが英語または中国語で録音されており、俳優や女優が短いフレーズを発音しているため、自然な会話とは無関係である。
さらに、全てのデータベースの中で高齢者に関連するものはほとんどない。
そこで本研究では,多言語・多年齢コーパスが,イタリア語のデータセットを含む高齢者を含む英語のデータセットをマージすることを検討する。
若者や成人のイギリス人俳優や女優を対象とし,XGBoostに基づく一般モデルが提案されている。
次に、高齢者とイタリアの話者にモデルを適用するために、ドメイン適応の2つの戦略を提案する。
その結果,このアプローチにより分類性能が向上し,新たなデータセットの収集も可能となった。
関連論文リスト
- SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文 参考訳(メタデータ) (2023-06-26T08:48:08Z) - ITALIC: An Italian Intent Classification Dataset [16.970030804283745]
ITALICはイタリア語で意図分類用に設計された最初の大規模音声データセットである。
このデータセットは、イタリア各地の70人の話者が記録した16,521人のクラウドソースオーディオサンプルで構成されている。
意図分類の結果から,大規模化や言語適応の促進により,より優れた音声モデルが得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T13:36:24Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust
Elderly Speech Emotion Recognition [7.579298439023323]
本稿では,InterSPEECH 2020 Computational Paralinguistics Challenge (ComParE) への貢献について述べる。
本稿では,これらのタスクを最先端の音響的特徴と言語的特徴を用いてモデル化するバイモーダル・フレームワークを提案する。
本研究では,タスク固有の辞書やリソースを活用すれば,言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-09-07T21:19:16Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。