論文の概要: VALUE: Understanding Dialect Disparity in NLU
- arxiv url: http://arxiv.org/abs/2204.03031v1
- Date: Wed, 6 Apr 2022 18:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-09 08:07:36.604588
- Title: VALUE: Understanding Dialect Disparity in NLU
- Title(参考訳): VALUE:NLUにおける方言の相違を理解する
- Authors: Caleb Ziems, Jiaao Chen, Camille Harris, Jessica Anderson, Diyi Yang
- Abstract要約: アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
- 参考スコア(独自算出の注目度): 50.35526025326337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: English Natural Language Understanding (NLU) systems have achieved great
performances and even outperformed humans on benchmarks like GLUE and
SuperGLUE. However, these benchmarks contain only textbook Standard American
English (SAE). Other dialects have been largely overlooked in the NLP
community. This leads to biased and inequitable NLU systems that serve only a
sub-population of speakers. To understand disparities in current models and to
facilitate more dialect-competent NLU systems, we introduce the VernAcular
Language Understanding Evaluation (VALUE) benchmark, a challenging variant of
GLUE that we created with a set of lexical and morphosyntactic transformation
rules. In this initial release (V.1), we construct rules for 11 features of
African American Vernacular English (AAVE), and we recruit fluent AAVE speakers
to validate each feature transformation via linguistic acceptability judgments
in a participatory design manner. Experiments show that these new dialectal
features can lead to a drop in model performance.
- Abstract(参考訳): 英語の自然言語理解(NLU)システムは、GLUEやSuperGLUEのようなベンチマークで優れた性能を発揮し、人間よりも優れています。
しかし、これらのベンチマークは標準アメリカ英語(SAE)の教科書のみを含んでいる。
他の方言は主にNLPコミュニティで見過ごされている。
これは、話者のサブポピュレーションのみに作用するバイアス付きで不平等なNLUシステムをもたらす。
現在のモデルの相違を理解し、より方言に適合したNLUシステムを容易にするために、語彙と形態素の変換規則を用いて作成したGLUEの挑戦的な変種であるVernAcular Language Understanding Evaluation (VALUE)ベンチマークを導入する。
この最初のリリース (v.1) では、アフリカ系アメリカ人のバーナキュラー英語 (aave) の11の特徴に関する規則を構築し、言語受容性判断による各特徴変換を参加型設計方法で検証するために流行ったaave話者を募集した。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
関連論文リスト
- One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - AAVENUE: Detecting LLM Biases on NLU Tasks in AAVE via a Novel Benchmark [3.1927733045184885]
AAVENUE は、AAVE と Standard American English の NLU タスクにおける大きな言語モデル (LLM) のパフォーマンスを評価するためのベンチマークである。
AAVENUE と VALUE の翻訳を,5つの人気のある LLM と,フルーエンシ,BARTScore,品質,コヒーレンス,理解可能性などの総合的な指標を用いて比較した。
評価の結果, LLM は AAVE に翻訳されたバージョンよりも, SAE タスクで一貫した性能が向上し, 固有のバイアスが強調された。
論文 参考訳(メタデータ) (2024-08-27T07:56:35Z) - Self-supervised Speech Representations Still Struggle with African American Vernacular English [28.223877889211803]
疎化言語変種話者のためのASRシステムの低性能化は、よく文書化された現象である。
AAVEとメインストリーム・アメリカン・イングリッシュのASR性能のギャップを埋めることができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-08-26T13:29:25Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。