論文の概要: Don't Patronize Me! An Annotated Dataset with Patronizing and
Condescending Language towards Vulnerable Communities
- arxiv url: http://arxiv.org/abs/2011.08320v1
- Date: Mon, 16 Nov 2020 22:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:14:12.655169
- Title: Don't Patronize Me! An Annotated Dataset with Patronizing and
Condescending Language towards Vulnerable Communities
- Title(参考訳): 私をパトロンにしないで!
脆弱なコミュニティに対するパトロンと譲歩言語を備えた注釈付きデータセット
- Authors: Carla P\'erez-Almendros, Luis Espinosa-Anke and Steven Schockaert
- Abstract要約: 我々は,NLPモデルの開発を支援するための注釈付きデータセットを導入し,脆弱なコミュニティを支援・支援する言語を識別・分類する。
提案したデータセットを解析した結果,標準NLPモデルではPCLの同定が困難であり,BERTなどの言語モデルが最適であることがわかった。
- 参考スコア(独自算出の注目度): 39.429915087526965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a new annotated dataset which is aimed at
supporting the development of NLP models to identify and categorize language
that is patronizing or condescending towards vulnerable communities (e.g.
refugees, homeless people, poor families). While the prevalence of such
language in the general media has long been shown to have harmful effects, it
differs from other types of harmful language, in that it is generally used
unconsciously and with good intentions. We furthermore believe that the often
subtle nature of patronizing and condescending language (PCL) presents an
interesting technical challenge for the NLP community. Our analysis of the
proposed dataset shows that identifying PCL is hard for standard NLP models,
with language models such as BERT achieving the best results.
- Abstract(参考訳): 本稿では,nlpモデルの開発を支援し,脆弱なコミュニティ(難民,ホームレス,貧乏家族など)を保護あるいは軽視する言語を識別し分類することを目的とした,新しい注釈付きデータセットを提案する。
一般メディアにおけるそのような言語の普及は長年に渡り有害な効果があることが示されているが、他の種類の有害な言語とは異なっている。
さらに,PCLの微妙な性質は,NLPコミュニティにとって興味深い技術的課題であると考えている。
提案したデータセットを解析した結果,標準NLPモデルではPCLの同定が困難であり,BERTなどの言語モデルが最適であることがわかった。
関連論文リスト
- Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce [27.918975040084387]
与えられた言語のデータは、トークンの集まり以上のものと見なすべきである。
優れたデータ収集とラベル付けのプラクティスは、より人間中心で社会的に意識した技術を構築する上で鍵となる。
論文 参考訳(メタデータ) (2024-10-16T15:51:18Z) - PclGPT: A Large Language Model for Patronizing and Condescending Language Detection [18.516811093478054]
Patronizing and condescending Language(PCL)は、脆弱なグループに向けられた音声の一種である。
従来の訓練済み言語モデル(PLM)は、偽善や偽共感のような暗黙的な毒性特性のためにPCLの検出に不適である。
大規模言語モデル(LLMs)の台頭により、我々は彼らの豊かな感情的意味論を利用して暗黙の毒性を探求するパラダイムを確立することができる。
論文 参考訳(メタデータ) (2024-10-01T03:19:13Z) - Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP [2.3499129784547663]
本研究は, 体系的かつ総合的な単言語NLPサーベイを作成する手法を導入することで, ギャップを埋めるものである。
構造化された検索プロトコルによって特徴づけられ、出版物を選定し、NLPタスクの分類によってそれらを整理することができる。
本手法の適用により,2012年から2022年にかけて,ギリシャNLPの体系的文献レビューを行った。
論文 参考訳(メタデータ) (2024-07-13T12:01:52Z) - A Taxonomy of Ambiguity Types for NLP [53.10379645698917]
NLP分析を容易にするために,英語で見られるあいまいさの分類法を提案する。
私たちの分類学は、言語あいまいさデータにおいて意味のある分割を実現するのに役立ち、データセットとモデルパフォーマンスのよりきめ細かい評価を可能にします。
論文 参考訳(メタデータ) (2024-03-21T01:47:22Z) - Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering
Dehumanizing Language [11.946719280041789]
本稿では, GPT-4, GPT-3.5, LLAMA-2を含む最先端NLPモデルの性能評価を行った。
以上の結果から,これらのモデルが潜在的な可能性を示し,より広範なヘイトスピーチと非人間化言語を区別する精度が70%に達する一方で,バイアスも示していることがわかった。
論文 参考訳(メタデータ) (2024-02-21T13:57:36Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。