論文の概要: Classist Tools: Social Class Correlates with Performance in NLP
- arxiv url: http://arxiv.org/abs/2403.04445v1
- Date: Thu, 7 Mar 2024 12:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:16:24.603015
- Title: Classist Tools: Social Class Correlates with Performance in NLP
- Title(参考訳): クラスツール:NLPのパフォーマンスとソーシャルクラスの関係
- Authors: Amanda Cercas Curry, Giuseppe Attanasio, Zeerak Talat and Dirk Hovy
- Abstract要約: 社会デマトグラフィーの特徴は、自然言語処理において頻繁に使用される。
また,NLP の社会経済グループに対する不利は低いことが示唆された。
我々は、将来の言語技術に社会経済のクラスを取り入れることについて議論する。
- 参考スコア(独自算出の注目度): 27.683676116781758
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Since the foundational work of William Labov on the social stratification of
language (Labov, 1964), linguistics has made concentrated efforts to explore
the links between sociodemographic characteristics and language production and
perception. But while there is strong evidence for socio-demographic
characteristics in language, they are infrequently used in Natural Language
Processing (NLP). Age and gender are somewhat well represented, but Labov's
original target, socioeconomic status, is noticeably absent. And yet it
matters. We show empirically that NLP disadvantages less-privileged
socioeconomic groups. We annotate a corpus of 95K utterances from movies with
social class, ethnicity and geographical language variety and measure the
performance of NLP systems on three tasks: language modelling, automatic speech
recognition, and grammar error correction. We find significant performance
disparities that can be attributed to socioeconomic status as well as ethnicity
and geographical differences. With NLP technologies becoming ever more
ubiquitous and quotidian, they must accommodate all language varieties to avoid
disadvantaging already marginalised groups. We argue for the inclusion of
socioeconomic class in future language technologies.
- Abstract(参考訳): 1964年のウィリアム・ラボフの『言語社会階層化』(labov, 1964)以来、言語学は社会デモグラフィの特徴と言語生産と知覚との関係を探求するために集中的に研究してきた。
しかし, 自然言語処理(NLP)では, 言語における社会デマトグラフィー的特徴の強い証拠は少ない。
年齢と性別は幾分良く表されているが、ラボフの当初の目標である社会経済的地位は顕著に欠落している。
しかし、それは重要だ。
我々はNLPが低特権の社会経済集団に欠点があることを実証的に示す。
社会階級・民族・地理的言語多種多様な映画から95k発話のコーパスをアノテートし,言語モデル,自動音声認識,文法誤り訂正の3タスクにおけるnlpシステムの性能を測定した。
我々は、社会経済的地位、民族性、地理的差異に起因する重要なパフォーマンス格差を見出した。
NLP技術はよりユビキタスでクオリディアンなものとなり、すでに疎外化されているグループへの不便さを避けるために、すべての言語品種に対応しなければならない。
我々は、将来の言語技術における社会経済クラスの導入を議論する。
関連論文リスト
- The Call for Socially Aware Language Technologies [94.6762219597438]
NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。
我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。
論文 参考訳(メタデータ) (2024-05-03T18:12:39Z) - Impoverished Language Technology: The Lack of (Social) Class in NLP [24.138711060814963]
ラボフ(1964年)の言語社会成層に関する基礎研究以来、言語学は社会デコグラフィーの要因と言語生産と知覚の関係を理解するために、共同で努力してきた。
社会デミノグラフィー因子と言語生成の有意な関連性を示す証拠は多数存在するが,NLP技術の文脈において,これらの要因の比較的少数が研究されている。
年齢と性別はよくカバーされているが、ラボフの最初のターゲットである社会経済的階級はほとんど欠落している。
論文 参考訳(メタデータ) (2024-03-06T17:35:27Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - When Dialects Collide: How Socioeconomic Mixing Affects Language Use [0.0]
より異なる社会経済階級が混在するほど、標準文法からの離脱頻度と収入の相互依存度は低下する。
本稿では,データに見られる観察結果を生成するメカニズムに光を当てる,言語多様性導入のエージェントベースモデルを提案する。
論文 参考訳(メタデータ) (2023-07-19T14:55:50Z) - On the Limitations of Sociodemographic Adaptation with Transformers [34.768337465321395]
社会学的な要因(性別や年齢など)が我々の言語を形作っている。
これまでの研究は、特定の社会デマログラフィー要素を組み込むことで、様々なNLPタスクのパフォーマンスを継続的に改善できることを示した。
事前学習したトランスフォーマーに外部知識を組み込むのに有効な3つの共通特殊化手法を用いる。
論文 参考訳(メタデータ) (2022-08-01T17:58:02Z) - Towards a Deep Multi-layered Dialectal Language Analysis: A Case Study
of African-American English [0.20305676256390934]
メインストリーム・アメリカン・イングリッシュ(MAE)で訓練された音声タグは、アフリカ系アメリカ人・イングリッシュ(AAE)に適用した場合、解釈不能な結果をもたらす
本研究では,AAE話者の行動と言語利用の理解を深めるために,ループ型ヒューマン・イン・ザ・ループのパラダイムを取り入れた。
論文 参考訳(メタデータ) (2022-06-03T01:05:58Z) - Mapping the Multilingual Margins: Intersectional Biases of Sentiment
Analysis Systems in English, Spanish, and Arabic [3.3458760961317635]
本稿では,4つの多言語エクイティ評価コーパス,社会的バイアスを測定するための補足的テストセット,および自然言語処理における一節的および交叉的社会的バイアスを研究するための新しい統計枠組みを紹介する。
我々はこれらのツールを用いて、英語、スペイン語、アラビア語の感情回帰タスクに基づいて訓練された5つのモデルにまたがる性別、人種、民族、および交差する社会的バイアスを測定する。
論文 参考訳(メタデータ) (2022-04-07T16:33:15Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。