論文の概要: Transfer learning from High-Resource to Low-Resource Language Improves
Speech Affect Recognition Classification Accuracy
- arxiv url: http://arxiv.org/abs/2103.11764v1
- Date: Thu, 4 Mar 2021 08:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 06:44:04.778267
- Title: Transfer learning from High-Resource to Low-Resource Language Improves
Speech Affect Recognition Classification Accuracy
- Title(参考訳): 高音源から低音源言語への変換学習による音声認識精度の向上
- Authors: Sara Durrani and Umair Arshad
- Abstract要約: 低リソース言語における影響を認識するために,モデルが高リソース言語と微調整で訓練されるアプローチを提案する。
ベースライン精度60.45、68.05、80.34、56.58パーセントを達成し、SAVEE、EMOVO、Urdu、およびIEMOCAP上で同じコーパス設定でモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech Affect Recognition is a problem of extracting emotional affects from
audio data. Low resource languages corpora are rear and affect recognition is a
difficult task in cross-corpus settings. We present an approach in which the
model is trained on high resource language and fine-tune to recognize affects
in low resource language. We train the model in same corpus setting on SAVEE,
EMOVO, Urdu, and IEMOCAP by achieving baseline accuracy of 60.45, 68.05, 80.34,
and 56.58 percent respectively. For capturing the diversity of affects in
languages cross-corpus evaluations are discussed in detail. We find that
accuracy improves by adding the domain target data into the training data.
Finally, we show that performance is improved for low resource language speech
affect recognition by achieving the UAR OF 69.32 and 68.2 for Urdu and Italian
speech affects.
- Abstract(参考訳): 音声認識は、音声データから感情的影響を抽出する問題である。
低リソース言語コーパスは後方にあり、クロスコーパス設定では影響認識が難しいタスクである。
本稿では,低リソース言語における影響を認識するために,モデルが高リソース言語と微調整に基づいて訓練されるアプローチを提案する。
SAVEE, EMOVO, Urdu, IEMOCAPをベースライン精度60.45, 68.05, 80.34, 56.58パーセントで同一のコーパスでトレーニングする。
言語における影響の多様性を捉えるため、クロスコーポレーション評価を詳細に論じる。
トレーニングデータにドメインターゲットデータを追加することで、精度が向上することがわかった。
最後に,ウルドゥー語とイタリア語の音声のuarを69.32および68.2で達成することで,低資源言語音声認識の性能が向上することを示す。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Data Augmentation for Speech Recognition in Maltese: A Low-Resource
Perspective [4.6898263272139795]
マルタ語における音声認識改善のためのデータ拡張手法を検討する。
本稿では,教師なし学習,多言語学習,合成音声を訓練データとして利用する3つのデータ拡張について考察する。
この結果から,3つのデータ拡張手法を組み合わせることで,言語モデルを用いることなく,WERの絶対値が15%向上することが示唆された。
論文 参考訳(メタデータ) (2021-11-15T14:28:21Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Multilingual transfer of acoustic word embeddings improves when training
on languages related to the target zero-resource language [32.170748231414365]
たった一つの関連言語でトレーニングを行うことで、最大の利益が得られます。
また、関係のない言語からのデータを追加することは、一般的にパフォーマンスを損なわないこともわかりました。
論文 参考訳(メタデータ) (2021-06-24T08:37:05Z) - Transfer Learning based Speech Affect Recognition in Urdu [0.0]
高リソース言語のモデルが認識タスクに与える影響を事前学習し、低リソース言語のパラメータを微調整する。
このアプローチは、既存のアルゴリズムと比較して高いUnweighted Average Recall(UAR)を実現する。
論文 参考訳(メタデータ) (2021-03-05T10:30:58Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。