論文の概要: Learning to Recognize Dialect Features
- arxiv url: http://arxiv.org/abs/2010.12707v3
- Date: Thu, 6 May 2021 22:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:01:51.709688
- Title: Learning to Recognize Dialect Features
- Title(参考訳): 方言の特徴を認識するための学習
- Authors: Dorottya Demszky, Devyani Sharma, Jonathan H. Clark, Vinodkumar
Prabhakaran, Jacob Eisenstein
- Abstract要約: 本稿では,方言の特徴検出の課題を紹介するとともに,2つのマルチタスク学習手法を提案する。
言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小のペアでトレーニングします。
- 参考スコア(独自算出の注目度): 21.277962038423123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building NLP systems that serve everyone requires accounting for dialect
differences. But dialects are not monolithic entities: rather, distinctions
between and within dialects are captured by the presence, absence, and
frequency of dozens of dialect features in speech and text, such as the
deletion of the copula in "He {} running". In this paper, we introduce the task
of dialect feature detection, and present two multitask learning approaches,
both based on pretrained transformers. For most dialects, large-scale annotated
corpora for these features are unavailable, making it difficult to train
recognizers. We train our models on a small number of minimal pairs, building
on how linguists typically define dialect features. Evaluation on a test set of
22 dialect features of Indian English demonstrates that these models learn to
recognize many features with high accuracy, and that a few minimal pairs can be
as effective for training as thousands of labeled examples. We also demonstrate
the downstream applicability of dialect feature detection both as a measure of
dialect density and as a dialect classifier.
- Abstract(参考訳): 誰もが利用できるNLPシステムを構築するには、方言の違いを考慮する必要がある。
しかし、方言はモノリシックな実体ではなく、むしろ方言内の方言の区別は、"He {} run"におけるコプラの削除など、言語やテキストにおける数十の方言の特徴の存在、欠如、頻度によって捉えられる。
本稿では,方言の特徴検出の課題を紹介するとともに,事前学習型トランスフォーマーに基づく2つのマルチタスク学習手法を提案する。
ほとんどの方言では、これらの特徴に対する大規模な注釈付きコーパスは利用できないため、認識者の訓練が困難である。
言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小ペアでトレーニングします。
インド英語の22の方言特徴の試験セットの評価は、これらのモデルが多くの特徴を高い精度で認識し、少数の最小ペアが数千のラベル付き例と同じくらいの訓練に有効であることを示す。
また,方言特徴検出の下流適用性を,方言密度の尺度と方言分類器の尺度として示す。
関連論文リスト
- Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Towards dialect-inclusive recognition in a low-resource language: are
balanced corpora the answer? [5.1121440213561335]
本研究は,話者の方言が認識性能に与える影響を定量化するための診断である。
12のASRシステムは、方言バランスの訓練コーパスとベースラインコーパスの修正版を用いて訓練された。
その結果、方言バランスの取れたコーパスは、方言全体で同様のパフォーマンスを得られないことが示唆された。
Co と Mu の方言の間には密接な関係があるが、対称ではないものが存在する。
論文 参考訳(メタデータ) (2023-07-14T12:18:38Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - End-to-End Automatic Speech Recognition model for the Sudanese Dialect [0.0]
本稿では,スーダン方言における音声認識モデルの設計の可能性を検討する。
本稿では,スーダン方言の概要と表現資源の収集作業,および質素なデータセット構築のための前処理について述べる。
設計されたモデルは、現在の認識タスクに関するいくつかの洞察を与え、平均的なラベルエラーレート73.67%に達した。
論文 参考訳(メタデータ) (2022-12-21T07:35:33Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。