論文の概要: Towards spoken dialect identification of Irish
- arxiv url: http://arxiv.org/abs/2307.07436v1
- Date: Fri, 14 Jul 2023 16:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:23:25.025840
- Title: Towards spoken dialect identification of Irish
- Title(参考訳): アイルランド語の方言識別に向けて
- Authors: Liam Lonergan, Mengjie Qian, Neasa N\'i Chiar\'ain, Christer Gobl,
Ailbhe N\'i Chasaide
- Abstract要約: アイルランド語は方言やアクセントの多様性に富んでいる。
アイルランド語ASRの方言バイアスを研究する最近の研究によると、アルスター方言のパフォーマンスはコンナヒト方言やマンスター方言よりも一貫して劣っている。
本研究では,アイルランド語の方言識別について検討し,そのようなシステムを音声認識パイプラインに組み込むことを目的とした。
- 参考スコア(独自算出の注目度): 5.1121440213561335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Irish language is rich in its diversity of dialects and accents. This
compounds the difficulty of creating a speech recognition system for the
low-resource language, as such a system must contend with a high degree of
variability with limited corpora. A recent study investigating dialect bias in
Irish ASR found that balanced training corpora gave rise to unequal dialect
performance, with performance for the Ulster dialect being consistently worse
than for the Connacht or Munster dialects. Motivated by this, the present
experiments investigate spoken dialect identification of Irish, with a view to
incorporating such a system into the speech recognition pipeline. Two acoustic
classification models are tested, XLS-R and ECAPA-TDNN, in conjunction with a
text-based classifier using a pretrained Irish-language BERT model. The
ECAPA-TDNN, particularly a model pretrained for language identification on the
VoxLingua107 dataset, performed best overall, with an accuracy of 73%. This was
further improved to 76% by fusing the model's outputs with the text-based
model. The Ulster dialect was most accurately identified, with an accuracy of
94%, however the model struggled to disambiguate between the Connacht and
Munster dialects, suggesting a more nuanced approach may be necessary to
robustly distinguish between the dialects of Irish.
- Abstract(参考訳): アイルランド語は方言やアクセントの多様性に富んでいる。
これは低リソース言語のための音声認識システムを構築することの難しさを複雑にしている。
最近のアイルランド語ASRにおける方言バイアスの調査では、バランスの取れた訓練コーパスは不平等な方言のパフォーマンスをもたらし、アルスター方言のパフォーマンスはコンナヒト方言やマンスター方言よりも一貫して悪化している。
そこで本研究では,アイルランド語の方言識別について検討し,そのようなシステムを音声認識パイプラインに組み込むことを目的とした。
XLS-R と ECAPA-TDNN の2つの音響分類モデルと事前訓練されたアイルランド語 BERT モデルを用いたテキストベース分類器を併用して実験を行った。
ecapa-tdnn(特にvoxlingua107データセットで言語識別のために事前訓練されたモデル)は、総合的に73%の精度で最高性能を発揮した。
これは、モデルの出力をテキストベースモデルと融合することで、76%に改善された。
アルスター方言は94%の精度で最も正確に同定されたが、このモデルはコンナヒト方言とマンスター方言のあいまいさに苦慮しており、アイルランド語の方言をしっかり区別するためにはよりニュアンスなアプローチが必要であることを示唆している。
関連論文リスト
- Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Towards dialect-inclusive recognition in a low-resource language: are
balanced corpora the answer? [5.1121440213561335]
本研究は,話者の方言が認識性能に与える影響を定量化するための診断である。
12のASRシステムは、方言バランスの訓練コーパスとベースラインコーパスの修正版を用いて訓練された。
その結果、方言バランスの取れたコーパスは、方言全体で同様のパフォーマンスを得られないことが示唆された。
Co と Mu の方言の間には密接な関係があるが、対称ではないものが存在する。
論文 参考訳(メタデータ) (2023-07-14T12:18:38Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z) - Learning to Recognize Dialect Features [21.277962038423123]
本稿では,方言の特徴検出の課題を紹介するとともに,2つのマルチタスク学習手法を提案する。
言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小のペアでトレーニングします。
論文 参考訳(メタデータ) (2020-10-23T23:25:00Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。