論文の概要: Disambiguation of morpho-syntactic features of African American English
-- the case of habitual be
- arxiv url: http://arxiv.org/abs/2204.12421v1
- Date: Tue, 26 Apr 2022 16:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:36:01.296402
- Title: Disambiguation of morpho-syntactic features of African American English
-- the case of habitual be
- Title(参考訳): アフリカ系アメリカ人英語のモルフォ・シンタクティックな特徴の曖昧さ--常習蜂の場合
- Authors: Harrison Santiago, Joshua Martin, Sarah Moeller, and Kevin Tang
- Abstract要約: 習慣的「be」は同型であり、したがってあいまいであり、他の形の「be」はAAEや他の英語の変種にも見られる。
我々はルールベースのフィルタとデータ拡張の組み合わせを用いて、習慣インスタンスと非生活インスタンスのバランスの取れたコーパスを生成する。
- 参考スコア(独自算出の注目度): 1.4699455652461728
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research has highlighted that natural language processing (NLP)
systems exhibit a bias against African American speakers. The bias errors are
often caused by poor representation of linguistic features unique to African
American English (AAE), due to the relatively low probability of occurrence of
many such features in training data. We present a workflow to overcome such
bias in the case of habitual "be". Habitual "be" is isomorphic, and therefore
ambiguous, with other forms of "be" found in both AAE and other varieties of
English. This creates a clear challenge for bias in NLP technologies. To
overcome the scarcity, we employ a combination of rule-based filters and data
augmentation that generate a corpus balanced between habitual and non-habitual
instances. With this balanced corpus, we train unbiased machine learning
classifiers, as demonstrated on a corpus of AAE transcribed texts, achieving
.65 F$_1$ score disambiguating habitual "be".
- Abstract(参考訳): 最近の研究では、自然言語処理(NLP)システムがアフリカ系アメリカ人の話者に対して偏見を示すことが強調されている。
バイアスエラーは、アフリカ系アメリカ人の英語(AAE)に特有の言語的特徴の表現が貧弱なため、訓練データにそのような特徴が出現する確率が比較的低いため、しばしば引き起こされる。
習慣的"be"の場合,そのようなバイアスを克服するためのワークフローを提示する。
習慣的「be」は同型であり、したがってあいまいであり、他の形の「be」はAEやその他の英語の変種に見られる。
これはNLP技術におけるバイアスに対する明らかな課題を生み出します。
不足を克服するために,ルールベースのフィルタとデータ拡張を組み合わせることで,日常インスタンスと非生活インスタンスのバランスの取れたコーパスを生成する。
このバランスの取れたコーパスで、aaeで書き起こされたテキストのコーパスで示されるように、偏りのない機械学習分類器をトレーニングし、.65 f$_1$スコアの曖昧な習慣的"be"を達成する。
関連論文リスト
- One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - A Comprehensive View of the Biases of Toxicity and Sentiment Analysis
Methods Towards Utterances with African American English Expressions [5.472714002128254]
ウェブベース(YouTubeとTwitter)の2つのデータセットと英語の2つのデータセットのバイアスについて検討した。
我々は,言語問合せおよびワードカウントソフトウェアから言語制御機能を介してAE表現の使用が与える影響を分離する。
また, AAE 表現の多用により, 話者の毒性が著しく向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-23T12:41:03Z) - Towards a Deep Multi-layered Dialectal Language Analysis: A Case Study
of African-American English [0.20305676256390934]
メインストリーム・アメリカン・イングリッシュ(MAE)で訓練された音声タグは、アフリカ系アメリカ人・イングリッシュ(AAE)に適用した場合、解釈不能な結果をもたらす
本研究では,AAE話者の行動と言語利用の理解を深めるために,ループ型ヒューマン・イン・ザ・ループのパラダイムを取り入れた。
論文 参考訳(メタデータ) (2022-06-03T01:05:58Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Machine Translationese: Effects of Algorithmic Bias on Linguistic
Complexity in Machine Translation [2.0625936401496237]
我々は、機械翻訳におけるジェンダーの研究を超えて、偏見の増幅がより広い意味で言語に与える影響を調査する。
我々は、異なるデータ駆動MTパラダイムによって生成された翻訳の言語的豊かさ(語彙的および形態学的レベルで)を評価する。
論文 参考訳(メタデータ) (2021-01-30T18:49:11Z) - Detecting Emergent Intersectional Biases: Contextualized Word Embeddings
Contain a Distribution of Human-like Biases [10.713568409205077]
最先端のニューラルネットワークモデルは、単語が現れるコンテキストに依存する動的単語埋め込みを生成する。
本稿では、ニューラルネットワークモデルにおける全体的なバイアスの大きさを要約できる、コンテキスト適応型埋め込みアソシエーションテスト(CEAT)を紹介する。
静的な単語埋め込みから交差点バイアスと緊急交差点バイアスを自動的に識別する2つの方法,IBD (Intersectional Bias Detection) とEmergent Intersectional Bias Detection (EIBD) を開発した。
論文 参考訳(メタデータ) (2020-06-06T19:49:50Z) - It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文 参考訳(メタデータ) (2020-05-09T04:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。