論文の概要: Multi-VALUE: A Framework for Cross-Dialectal English NLP
- arxiv url: http://arxiv.org/abs/2212.08011v2
- Date: Fri, 26 May 2023 15:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:11:06.100058
- Title: Multi-VALUE: A Framework for Cross-Dialectal English NLP
- Title(参考訳): Multi-VALUE: クロスプラットフォーム英語NLPフレームワーク
- Authors: Caleb Ziems, William Held, Jingfeng Yang, Diyi Yang
- Abstract要約: マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
- 参考スコア(独自算出の注目度): 41.92597675805877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialect differences caused by regional, social, and economic factors cause
performance discrepancies for many groups of language technology users.
Inclusive and equitable language technology must critically be dialect
invariant, meaning that performance remains constant over dialectal shifts.
Current systems often fall short of this ideal since they are designed and
tested on a single dialect: Standard American English (SAE). We introduce a
suite of resources for evaluating and achieving English dialect invariance. The
resource is called Multi-VALUE, a controllable rule-based translation system
spanning 50 English dialects and 189 unique linguistic features. Multi-VALUE
maps SAE to synthetic forms of each dialect. First, we use this system to
stress tests question answering, machine translation, and semantic parsing.
Stress tests reveal significant performance disparities for leading models on
non-standard dialects. Second, we use this system as a data augmentation
technique to improve the dialect robustness of existing systems. Finally, we
partner with native speakers of Chicano and Indian English to release new
gold-standard variants of the popular CoQA task. To execute the transformation
code, run model checkpoints, and download both synthetic and gold-standard
dialectal benchmark datasets, see http://value-nlp.org.
- Abstract(参考訳): 地域、社会的、経済的要因による方言の違いは、言語技術利用者の多くのグループでパフォーマンスの相違を引き起こす。
包含的かつ平等な言語技術は、方言不変性(英語版)に批判的でなければならない。
現在のシステムは、単一の方言であるスタンダード・アメリカン・イングリッシュ(sae)で設計・テストされているため、この理想に欠けることが多い。
英語の方言の不変性を評価・達成するためのリソース群を紹介する。
このリソースはMulti-VALUEと呼ばれ、50の英語方言と189の言語的特徴にまたがる制御可能なルールベースの翻訳システムである。
多値は、saeを各方言の合成形式にマッピングする。
まず,本システムを用いて質問応答,機械翻訳,意味解析を行う。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
第2に,本システムは既存のシステムの方言ロバスト性を改善するために,データ拡張手法として用いる。
最後に、チカノとインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースします。
変換コードを実行するには、モデルチェックポイントを実行し、合成および金標準の方言ベンチマークデータセットをダウンロードする。
関連論文リスト
- Literary and Colloquial Dialect Identification for Tamil using Acoustic Features [0.0]
音声技術は、言語の様々な方言が絶滅しないようにする役割を担っている。
現在の研究は、人気のある2つのタミル方言と広く分類されたタミル方言を識別する方法を提案する。
論文 参考訳(メタデータ) (2024-08-27T09:00:27Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Towards dialect-inclusive recognition in a low-resource language: are
balanced corpora the answer? [5.1121440213561335]
本研究は,話者の方言が認識性能に与える影響を定量化するための診断である。
12のASRシステムは、方言バランスの訓練コーパスとベースラインコーパスの修正版を用いて訓練された。
その結果、方言バランスの取れたコーパスは、方言全体で同様のパフォーマンスを得られないことが示唆された。
Co と Mu の方言の間には密接な関係があるが、対称ではないものが存在する。
論文 参考訳(メタデータ) (2023-07-14T12:18:38Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - Learning to Recognize Dialect Features [21.277962038423123]
本稿では,方言の特徴検出の課題を紹介するとともに,2つのマルチタスク学習手法を提案する。
言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小のペアでトレーニングします。
論文 参考訳(メタデータ) (2020-10-23T23:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。