論文の概要: Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other
Languages
- arxiv url: http://arxiv.org/abs/2307.10814v1
- Date: Thu, 20 Jul 2023 12:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:08:58.953983
- Title: Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other
Languages
- Title(参考訳): クロスコーポレート多言語音声感情認識:アムハラ語対他言語
- Authors: Ephrem Afele Retta, Richard Sutcliffe, Jabar Mahmood, Michael Abebe
Berwo, Eiad Almekhlafi, Sajjad Ahmed Khan, Shehzad Ashraf Chaudhry, Mustafa
Mhamed, Jun Feng
- Abstract要約: 言語間および多言語音声の感情認識実験を行った。
Amharicでは、Amharic Speech Emotion dataset(ASED)を用いています。
英語、ドイツ語、Urduでは、既存のRAVDESS、EMO-DB、URDUデータセットを使用します。
- 参考スコア(独自算出の注目度): 2.06892184132057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a conventional Speech emotion recognition (SER) task, a classifier for a
given language is trained on a pre-existing dataset for that same language.
However, where training data for a language does not exist, data from other
languages can be used instead. We experiment with cross-lingual and
multilingual SER, working with Amharic, English, German and URDU. For Amharic,
we use our own publicly-available Amharic Speech Emotion Dataset (ASED). For
English, German and Urdu we use the existing RAVDESS, EMO-DB and URDU datasets.
We followed previous research in mapping labels for all datasets to just two
classes, positive and negative. Thus we can compare performance on different
languages directly, and combine languages for training and testing. In
Experiment 1, monolingual SER trials were carried out using three classifiers,
AlexNet, VGGE (a proposed variant of VGG), and ResNet50. Results averaged for
the three models were very similar for ASED and RAVDESS, suggesting that
Amharic and English SER are equally difficult. Similarly, German SER is more
difficult, and Urdu SER is easier. In Experiment 2, we trained on one language
and tested on another, in both directions for each pair: Amharic<->German,
Amharic<->English, and Amharic<->Urdu. Results with Amharic as target suggested
that using English or German as source will give the best result. In Experiment
3, we trained on several non-Amharic languages and then tested on Amharic. The
best accuracy obtained was several percent greater than the best accuracy in
Experiment 2, suggesting that a better result can be obtained when using two or
three non-Amharic languages for training than when using just one non-Amharic
language. Overall, the results suggest that cross-lingual and multilingual
training can be an effective strategy for training a SER classifier when
resources for a language are scarce.
- Abstract(参考訳): 従来の音声感情認識(ser)タスクでは、所定の言語の分類器が、同じ言語用の既存のデータセット上で訓練される。
しかし、言語のトレーニングデータが存在しない場合は、代わりに他の言語からのデータを使用することができる。
言語横断および多言語SERを用いて,アムハラ語,英語,ドイツ語,URDUを用いて実験を行った。
amharicでは、公開されているamharic speech emotion dataset(ased)を使っています。
英語、ドイツ語、Urduでは、既存のRAVDESS、EMO-DB、URDUデータセットを使用します。
我々は、すべてのデータセットのラベルを正と負の2つのクラスにマッピングする以前の研究に従った。
したがって、異なる言語のパフォーマンスを直接比較し、トレーニングとテストのための言語を組み合わせることができます。
実験1では、AlexNet、VGGE(VGGの派生案)、ResNet50の3つの分類器を用いて単言語SER試験を行った。
3つのモデルの平均値はASEDとRAVDESSと非常によく似ており、アムハラ語と英語のSERも同様に難しいことが示唆された。
同様に、ドイツのSERはより困難であり、Urdu SERはより簡単である。
実験2では,ある言語で訓練を行い,各ペアの両方向(amharic<->german, amharic<->english, amharic<->urdu)でテストを行った。
amharicをターゲットとした結果は、英語やドイツ語をソースとして使うことが最良の結果をもたらすことを示唆している。
実験3では、いくつかの非アムハラ語でトレーニングを行い、それからアムハラ語でテストしました。
得られた最良の精度は実験2の最良の精度よりも数パーセント高く、訓練に2つまたは3つの非アンモリック言語を使う場合、1つの非アンモリック言語を使う場合よりも良い結果が得られることが示唆された。
全体として,言語資源が不足している場合,言語間および多言語間トレーニングがser分類器の訓練に有効な戦略となる可能性が示唆された。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Automatic Discrimination of Human and Neural Machine Translation in
Multilingual Scenarios [4.631167282648452]
我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
論文 参考訳(メタデータ) (2023-05-31T11:41:24Z) - Cross-Lingual Knowledge Distillation for Answer Sentence Selection in
Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。
提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文 参考訳(メタデータ) (2023-05-25T17:56:04Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - A New Amharic Speech Emotion Dataset and Classification Benchmark [2.016873776192994]
本研究では,4つの方言と5つの感情を網羅したAmharic Speech Emotion dataset(ASED)を提案する。
VGGbと呼ばれるよく知られたVGGモデルの4層版を開発した。
その後、ASEDを用いてVGGb for SERを用いて3つの実験を行った。
論文 参考訳(メタデータ) (2022-01-07T23:50:34Z) - Role of Language Relatedness in Multilingual Fine-tuning of Language
Models: A Case Study in Indo-Aryan Languages [34.79533646549939]
我々は,多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を活用した影響について検討する。
Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。
論文 参考訳(メタデータ) (2021-09-22T06:37:39Z) - Cross-lingual Emotion Detection [6.767035411834297]
我々は英語をアラビア語とスペイン語をターゲット言語とする原語とみなしている。
対象言語データに基づいてトレーニングされたBERTベースのモノリンガルモデルは,それぞれアラビア語とスペイン語の絶対ジャカードスコアを4%上回り,SOTA(State-of-the-art)を5%上回りました。
次に、英語データのみを用いた言語間アプローチを用いることで、アラビア語とスペイン語のBERTモデルの90%以上と80%以上の相対的有効性を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-10T19:52:06Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。