Fugu-MT 論文翻訳(概要): Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset

論文の概要: Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset

arxiv url: http://arxiv.org/abs/2211.07307v1
Date: Mon, 14 Nov 2022 12:39:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 18:49:48.049276
Title: Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset
Title（参考訳）: クロスコーパス音声データセットのドメイン適応によるイタリア高齢者の感性認識
Authors: Francesca Gasparini, Alessandra Grossi
Abstract要約: 本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
参考スコア（独自算出の注目度）: 77.99182201815763
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The aim of this work is to define a speech emotion recognition (SER) model able to recognize positive, neutral and negative emotions in natural conversations of Italian elderly people. Several datasets for SER are available in the literature. However most of them are in English or Chinese, have been recorded while actors and actresses pronounce short phrases and thus are not related to natural conversation. Moreover only few speeches among all the databases are related to elderly people. Therefore, in this work, a multi-language and multi-age corpus is considered merging a dataset in English, that includes also elderly people, with a dataset in Italian. A general model, trained on young and adult English actors and actresses is proposed, based on XGBoost. Then two strategies of domain adaptation are proposed to adapt the model either to elderly people and to Italian speakers. The results suggest that this approach increases the classification performance, underlining also that new datasets should be collected.
Abstract（参考訳）: 本研究の目的は、イタリア高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識できる音声感情認識(ser)モデルを定義することである。 ser用のいくつかのデータセットが文献に載っている。しかし、ほとんどが英語または中国語で録音されており、俳優や女優が短いフレーズを発音しているため、自然な会話とは無関係である。さらに、全てのデータベースの中で高齢者に関連するものはほとんどない。そこで本研究では,多言語・多年齢コーパスが,イタリア語のデータセットを含む高齢者を含む英語のデータセットをマージすることを検討する。若者や成人のイギリス人俳優や女優を対象とし,XGBoostに基づく一般モデルが提案されている。次に、高齢者とイタリアの話者にモデルを適用するために、ドメイン適応の2つの戦略を提案する。その結果,このアプローチにより分類性能が向上し,新たなデータセットの収集も可能となった。

関連論文リスト

Large Language Model Data Generation for Enhanced Intent Recognition in German Speech [14.788624194380825]
音声コマンドのインテント認識(IR)は人工知能(AI)アシスタントシステムに不可欠である。本稿では,高齢者のドイツ語音声を微調整したWhisper ASRモデルを組み合わせた新しい手法を提案する。合成音声をテキスト音声モデルで生成し、広範囲なクロスデータセットテストを行う。
論文参考訳（メタデータ） (2025-08-08T12:54:09Z)
SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors [23.837811649327094]
SeniorTalkは、注意深い注釈付き中国語音声対話データセットである。このデータセットには、202人の参加者を含む101人の自然な会話から55.53時間のスピーチが含まれている。話者検証,話者ダイアリゼーション,音声認識,音声編集タスクについて実験を行った。
論文参考訳（メタデータ） (2025-03-20T11:31:47Z)
Experimenting with Affective Computing Models in Video Interviews with Spanish-speaking Older Adults [2.4866182704905495]
本研究では、高齢者が人または仮想アバターと対話する映像を用いて、最先端の感情コンピューティングモデルを評価する。この取り組みの一環として、人間対人間のビデオインタビューに従事しているスペイン語話者の高齢者を対象とした新しいデータセットを紹介した。
論文参考訳（メタデータ） (2025-01-28T11:42:15Z)
SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文参考訳（メタデータ） (2023-11-24T13:47:25Z)
Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文参考訳（メタデータ） (2023-06-26T08:48:08Z)
ITALIC: An Italian Intent Classification Dataset [16.970030804283745]
ITALICはイタリア語で意図分類用に設計された最初の大規模音声データセットである。このデータセットは、イタリア各地の70人の話者が記録した16,521人のクラウドソースオーディオサンプルで構成されている。意図分類の結果から,大規模化や言語適応の促進により,より優れた音声モデルが得られることが示唆された。
論文参考訳（メタデータ） (2023-06-14T13:36:24Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
Adapting Multilingual Speech Representation Model for a New, Underresourced Language through Multilingual Fine-tuning and Continued Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-01-18T03:57:53Z)
M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文参考訳（メタデータ） (2022-11-02T14:54:45Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition [7.579298439023323]
本稿では,InterSPEECH 2020 Computational Paralinguistics Challenge (ComParE) への貢献について述べる。本稿では,これらのタスクを最先端の音響的特徴と言語的特徴を用いてモデル化するバイモーダル・フレームワークを提案する。本研究では,タスク固有の辞書やリソースを活用すれば,言語モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2020-09-07T21:19:16Z)
Investigating Language Impact in Bilingual Approaches for Computational Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文参考訳（メタデータ） (2020-03-30T10:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。