論文の概要: Multi-VALUE: A Framework for Cross-Dialectal English NLP
- arxiv url: http://arxiv.org/abs/2212.08011v1
- Date: Thu, 15 Dec 2022 18:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:41:30.996725
- Title: Multi-VALUE: A Framework for Cross-Dialectal English NLP
- Title(参考訳): Multi-VALUE: クロスプラットフォーム英語NLPフレームワーク
- Authors: Caleb Ziems, William Held, Jingfeng Yang, Diyi Yang
- Abstract要約: 我々は50の英語方言にまたがる制御可能なルールベースの翻訳システムを構築した。
このシステムを用いて、質問応答、機械翻訳、意味解析タスクのためのストレステストを構築します。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
- 参考スコア(独自算出の注目度): 41.92597675805877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialect differences caused by regional, social, and economic barriers cause
performance discrepancies for many groups of users of language technology.
Fair, inclusive, and equitable language technology must critically be dialect
invariant, meaning that performance remains constant over dialectal shifts.
Current English systems often fall significantly short of this ideal since they
are designed and tested on a single dialect: Standard American English. We
introduce Multi-VALUE -- a suite of resources for evaluating and achieving
English dialect invariance. We build a controllable rule-based translation
system spanning 50 English dialects and a total of 189 unique linguistic
features. Our translation maps Standard American English text to synthetic form
of each dialect, which uses an upper-bound on the natural density of features
in that dialect. First, we use this system to build stress tests for question
answering, machine translation, and semantic parsing tasks. Stress tests reveal
significant performance disparities for leading models on non-standard
dialects. Second, we use this system as a data augmentation technique to
improve the dialect robustness of existing systems. Finally, we partner with
native speakers of Chicano and Indian English to release new gold-standard
variants of the popular CoQA task.
- Abstract(参考訳): 地域、社会的、経済的障壁によって引き起こされる方言の違いは、言語技術の多くのグループのユーザーにとってパフォーマンスの相違を引き起こす。
公平で包括的で公平な言語技術は、方言の不変性に批判的でなければならない。
現在の英語のシステムは、1つの方言(標準アメリカ英語)で設計・テストされているため、この理想をかなり満たしていないことが多い。
英語の方言の不変性を評価および達成するためのリソーススイートであるMulti-VALUEを紹介する。
我々は50の英語方言と189の言語的特徴にまたがる制御可能なルールベースの翻訳システムを構築した。
私たちの翻訳は、標準アメリカ英語のテキストをそれぞれの方言の合成形式にマッピングし、その方言の特徴の自然な密度を上界で用いている。
まず、このシステムを用いて、質問応答、機械翻訳、意味解析タスクのためのストレステストを構築します。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
第2に,本システムは既存のシステムの方言ロバスト性を改善するために,データ拡張手法として用いる。
最後に、チカノとインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースします。
関連論文リスト
- Literary and Colloquial Dialect Identification for Tamil using Acoustic Features [0.0]
音声技術は、言語の様々な方言が絶滅しないようにする役割を担っている。
現在の研究は、人気のある2つのタミル方言と広く分類されたタミル方言を識別する方法を提案する。
論文 参考訳(メタデータ) (2024-08-27T09:00:27Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Towards dialect-inclusive recognition in a low-resource language: are
balanced corpora the answer? [5.1121440213561335]
本研究は,話者の方言が認識性能に与える影響を定量化するための診断である。
12のASRシステムは、方言バランスの訓練コーパスとベースラインコーパスの修正版を用いて訓練された。
その結果、方言バランスの取れたコーパスは、方言全体で同様のパフォーマンスを得られないことが示唆された。
Co と Mu の方言の間には密接な関係があるが、対称ではないものが存在する。
論文 参考訳(メタデータ) (2023-07-14T12:18:38Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - Learning to Recognize Dialect Features [21.277962038423123]
本稿では,方言の特徴検出の課題を紹介するとともに,2つのマルチタスク学習手法を提案する。
言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小のペアでトレーニングします。
論文 参考訳(メタデータ) (2020-10-23T23:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。