論文の概要: MPSA-DenseNet: A novel deep learning model for English accent
classification
- arxiv url: http://arxiv.org/abs/2306.08798v1
- Date: Thu, 15 Jun 2023 01:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:03:09.353609
- Title: MPSA-DenseNet: A novel deep learning model for English accent
classification
- Title(参考訳): MPSA-DenseNet:英語アクセント分類のための新しいディープラーニングモデル
- Authors: Tianyu Song, Linh Thi Hoai Nguyen, Ton Viet Ta
- Abstract要約: MPSA-DenseNetは、英語のアクセントを正確に識別するための非常に有望なモデルである。
本稿では,英語アクセント分類のための3つの革新的なディープラーニングモデルを提案する。
- 参考スコア(独自算出の注目度): 1.3464152928754485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents three innovative deep learning models for English accent
classification: Multi-DenseNet, PSA-DenseNet, and MPSE-DenseNet, that combine
multi-task learning and the PSA module attention mechanism with DenseNet. We
applied these models to data collected from six dialects of English across
native English speaking regions (Britain, the United States, Scotland) and
nonnative English speaking regions (China, Germany, India). Our experimental
results show a significant improvement in classification accuracy, particularly
with MPSA-DenseNet, which outperforms all other models, including DenseNet and
EPSA models previously used for accent identification. Our findings indicate
that MPSA-DenseNet is a highly promising model for accurately identifying
English accents.
- Abstract(参考訳): 本稿では,英語アクセント分類のための3つの革新的なディープラーニングモデルを提案する。マルチタスク学習とPSAモジュールアテンション機構をDenseNetと組み合わせたマルチセンスネット,PSA-DenseNet,MPSE-DenseNetである。
我々はこれらのモデルを、母国英語圏(イギリス、アメリカ合衆国、スコットランド)と母国英語圏(中国、ドイツ、インド)の6つの方言から収集したデータに適用した。
特にMPSA-DenseNetでは,それまでアクセント識別に用いられていたDenseNetやEPSAモデルなど,他のモデルよりも優れた分類精度が得られた。
以上の結果から,MPSA-DenseNetは英語のアクセントを正確に識別する上で,有望なモデルであることが示唆された。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Towards a World-English Language Model for On-Device Virtual Assistants [5.743958545444472]
我々は、地域英語の変種を組み合わせて、オンデバイスVAのためのWorld English's NNLMを構築します。
アダプタモジュールは,サブネットワーク全体の特化よりも,方言のモデリングに有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-27T17:31:39Z) - Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - Sabi\'a: Portuguese Large Language Models [14.801853435122908]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。
ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文 参考訳(メタデータ) (2023-04-16T20:11:19Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Accidental Learners: Spoken Language Identification in Multilingual
Self-Supervised Models [11.439430077017635]
事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。
これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。
NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2022-11-09T18:53:59Z) - How transfer learning impacts linguistic knowledge in deep NLP models? [22.035813865470956]
ディープNLPモデルは、モデルの異なる層でキャプチャされた、非自明な量の言語知識を学習する。
下流のNLPタスクに対する微調整が学習言語知識に与える影響について検討する。
論文 参考訳(メタデータ) (2021-05-31T17:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。