論文の概要: Transfer Learning based Speech Affect Recognition in Urdu
- arxiv url: http://arxiv.org/abs/2103.03580v1
- Date: Fri, 5 Mar 2021 10:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 15:03:33.452520
- Title: Transfer Learning based Speech Affect Recognition in Urdu
- Title(参考訳): 移動学習に基づくウルドゥー語話者の音声認識
- Authors: Sara Durrani, Muhammad Umair Arshad
- Abstract要約: 高リソース言語のモデルが認識タスクに与える影響を事前学習し、低リソース言語のパラメータを微調整する。
このアプローチは、既存のアルゴリズムと比較して高いUnweighted Average Recall(UAR)を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been established that Speech Affect Recognition for low resource
languages is a difficult task. Here we present a Transfer learning based Speech
Affect Recognition approach in which: we pre-train a model for high resource
language affect recognition task and fine tune the parameters for low resource
language using Deep Residual Network. Here we use standard four data sets to
demonstrate that transfer learning can solve the problem of data scarcity for
Affect Recognition task. We demonstrate that our approach is efficient by
achieving 74.7 percent UAR on RAVDESS as source and Urdu data set as a target.
Through an ablation study, we have identified that pre-trained model adds most
of the features information, improvement in results and solves less data
issues. Using this knowledge, we have also experimented on SAVEE and EMO-DB
data set by setting Urdu as target language where only 400 utterances of data
is available. This approach achieves high Unweighted Average Recall (UAR) when
compared with existing algorithms.
- Abstract(参考訳): 低リソース言語に対する音声効果認識は難しい課題であると確立されています。
本稿では,高資源言語モデルの事前学習と,深層残差ネットワークを用いた低資源言語パラメータの微調整を行う,トランスファー学習に基づく音声認識手法を提案する。
ここでは、標準の4つのデータセットを用いて、トランスファー学習が、影響認識タスクにおけるデータ不足の問題を解決できることを実証する。
RAVDESSで74.7%のUARをソースとして、Urduデータセットをターゲットとして達成することで、私たちのアプローチが効率的であることを実証します。
アブレーション研究により,事前学習したモデルが特徴情報の大部分を付加し,その結果を改善し,少ないデータ問題を解決することが確認された。
また,SAVEE と EMO-DB データセットについても実験を行い,Urdu をターゲット言語とし,400 個のデータしか利用できないようにした。
このアプローチは、既存のアルゴリズムと比較して高いUnweighted Average Recall(UAR)を実現する。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Multilingual Speech Recognition using Knowledge Transfer across Learning
Processes [15.927513451432946]
実験結果から,WER全体の3.55%の相対的な減少が得られた。
LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
論文 参考訳(メタデータ) (2021-10-15T07:50:27Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Transfer learning from High-Resource to Low-Resource Language Improves
Speech Affect Recognition Classification Accuracy [0.0]
低リソース言語における影響を認識するために,モデルが高リソース言語と微調整で訓練されるアプローチを提案する。
ベースライン精度60.45、68.05、80.34、56.58パーセントを達成し、SAVEE、EMOVO、Urdu、およびIEMOCAP上で同じコーパス設定でモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-03-04T08:17:19Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。