論文の概要: A New Amharic Speech Emotion Dataset and Classification Benchmark
- arxiv url: http://arxiv.org/abs/2201.02710v1
- Date: Fri, 7 Jan 2022 23:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:46:17.577459
- Title: A New Amharic Speech Emotion Dataset and Classification Benchmark
- Title(参考訳): 新しいアムハーリック音声感情データセットと分類ベンチマーク
- Authors: Ephrem A. Retta, Eiad Almekhlafi, Richard Sutcliffe, Mustafa Mhamed,
Haider Ali, Jun Feng
- Abstract要約: 本研究では,4つの方言と5つの感情を網羅したAmharic Speech Emotion dataset(ASED)を提案する。
VGGbと呼ばれるよく知られたVGGモデルの4層版を開発した。
その後、ASEDを用いてVGGb for SERを用いて3つの実験を行った。
- 参考スコア(独自算出の注目度): 2.016873776192994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present the Amharic Speech Emotion Dataset (ASED), which
covers four dialects (Gojjam, Wollo, Shewa and Gonder) and five different
emotions (neutral, fearful, happy, sad and angry). We believe it is the first
Speech Emotion Recognition (SER) dataset for the Amharic language. 65 volunteer
participants, all native speakers, recorded 2,474 sound samples, two to four
seconds in length. Eight judges assigned emotions to the samples with high
agreement level (Fleiss kappa = 0.8). The resulting dataset is freely available
for download. Next, we developed a four-layer variant of the well-known VGG
model which we call VGGb. Three experiments were then carried out using VGGb
for SER, using ASED. First, we investigated whether Mel-spectrogram features or
Mel-frequency Cepstral coefficient (MFCC) features work best for Amharic. This
was done by training two VGGb SER models on ASED, one using Mel-spectrograms
and the other using MFCC. Four forms of training were tried, standard
cross-validation, and three variants based on sentences, dialects and speaker
groups. Thus, a sentence used for training would not be used for testing, and
the same for a dialect and speaker group. The conclusion was that MFCC features
are superior under all four training schemes. MFCC was therefore adopted for
Experiment 2, where VGGb and three other existing models were compared on ASED:
RESNet50, Alex-Net and LSTM. VGGb was found to have very good accuracy (90.73%)
as well as the fastest training time. In Experiment 3, the performance of VGGb
was compared when trained on two existing SER datasets, RAVDESS (English) and
EMO-DB (German) as well as on ASED (Amharic). Results are comparable across
these languages, with ASED being the highest. This suggests that VGGb can be
successfully applied to other languages. We hope that ASED will encourage
researchers to experiment with other models for Amharic SER.
- Abstract(参考訳): 本稿では, 4つの方言(Gojjam, Wollo, Shewa, Gonder)と5つの感情(中性, 恐怖, 幸福, 悲しみ, 怒り)をカバーするアムハラ語音声感情データセット(ASED)を提案する。
我々は、Amharic言語のための最初の音声感情認識(SER)データセットであると信じている。
65人のボランティア参加者、すべてのネイティブスピーカーは、2,474音のサンプルを2秒から4秒の長さで記録した。
8人の裁判官が同意度の高いサンプルに感情を割り当てた(Fleiss kappa = 0.8)。
得られたデータセットは無料でダウンロードできる。
次に、VGGbと呼ばれるよく知られたVGGモデルの4層版を開発した。
その後、ASEDを用いてVGGb for SERを用いて3つの実験を行った。
まず,Mel-spectrogram の特徴とMel- frequency Cepstral coefficient (MFCC) の特徴について検討した。
これは、ASEDで2つのVGGb SERモデルを訓練し、1つはMel-spectrogramを使用し、もう1つはMFCCを用いて訓練した。
4種類の訓練、標準のクロスバリデーション、文、方言、話者グループに基づく3つの変種が試みられた。
したがって、訓練に使用する文はテストに使用されず、方言と話者のグループでも同様である。
結論として、MFCCの機能は4つのトレーニングスキームよりも優れている。
MFCCは実験2で採用され、VGGbと既存の3つのモデル(RESNet50、Alex-Net、LSTM)がASEDで比較された。
VGGbは非常に高い精度(90.73%)と最速の訓練時間があることが判明した。
実験3では、既存の2つのSERデータセットであるRAVDESS(英語)とEMO-DB(ドイツ語)とASED(アンハラ語)のトレーニングでVGGbの性能を比較した。
結果はこれらの言語で比較され、asedが最も高い。
これは、VGGbは他の言語にもうまく適用できることを示している。
ASEDが研究者にAmharic SERの他のモデルの実験を奨励することを願っている。
関連論文リスト
- One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark [17.025090275310465]
音声感情認識(SER)は人間とコンピュータの相互作用の重要な部分である。
EmoBox(エモボックス)は、マルチ言語対応のマルチコーパス音声感情認識ツールキットである。
そこで本研究では,14言語を含む32の感情データセットを対象とした10の事前学習音声モデルのコーパス内SER結果と,完全にバランスの取れたテストセットを持つ4つのデータセットに対するクロスコーパスSER結果を示す。
論文 参考訳(メタデータ) (2024-06-11T11:12:51Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other
Languages [2.06892184132057]
言語間および多言語音声の感情認識実験を行った。
Amharicでは、Amharic Speech Emotion dataset(ASED)を用いています。
英語、ドイツ語、Urduでは、既存のRAVDESS、EMO-DB、URDUデータセットを使用します。
論文 参考訳(メタデータ) (2023-07-20T12:24:23Z) - The Two Word Test: A Semantic Benchmark for Large Language Models [0.0]
大規模言語モデル(LLM)は最近、高度な専門試験に合格するなど、顕著な能力を示している。
この業績は、言語に対する人間的な理解や「真の」理解の達成に近づいていることを多くの人に示唆している。
本稿では,2単語のフレーズを用いてLLMのセマンティック能力を評価するオープンソースベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-07T17:22:03Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Effects of language mismatch in automatic forensic voice comparison
using deep learning embeddings [0.0]
本研究の目的は、英語コーパスで事前学習したモデルが、ターゲットとする低リソース言語で利用できるかどうかを検討することである。
その結果, モデルが異なる言語で事前学習されているが, 大量の話者を持つコーパスでは, 言語ミスマッチのあるサンプルに対して良好な性能が得られた。
論文 参考訳(メタデータ) (2022-09-26T11:49:37Z) - Kinit Classification in Ethiopian Chants, Azmaris and Modern Music: A
New Dataset and CNN Benchmark [0.9506942292536568]
エチオピア音楽のための最初の音楽情報検索データセットであるEMIRを作成する。
EMIRには、正統的なテワヘドの聖歌、伝統的なアズマリの歌、現代のエチオピアの世俗音楽の600曲が収録されている。
それぞれの標本は5人の専門家によって4つの有名なエチオピア・キニツの1つに分類される。
論文 参考訳(メタデータ) (2022-01-20T20:48:07Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。