論文の概要: Don't Patronize Me! An Annotated Dataset with Patronizing and
Condescending Language towards Vulnerable Communities
- arxiv url: http://arxiv.org/abs/2011.08320v1
- Date: Mon, 16 Nov 2020 22:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:14:12.655169
- Title: Don't Patronize Me! An Annotated Dataset with Patronizing and
Condescending Language towards Vulnerable Communities
- Title(参考訳): 私をパトロンにしないで!
脆弱なコミュニティに対するパトロンと譲歩言語を備えた注釈付きデータセット
- Authors: Carla P\'erez-Almendros, Luis Espinosa-Anke and Steven Schockaert
- Abstract要約: 我々は,NLPモデルの開発を支援するための注釈付きデータセットを導入し,脆弱なコミュニティを支援・支援する言語を識別・分類する。
提案したデータセットを解析した結果,標準NLPモデルではPCLの同定が困難であり,BERTなどの言語モデルが最適であることがわかった。
- 参考スコア(独自算出の注目度): 39.429915087526965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a new annotated dataset which is aimed at
supporting the development of NLP models to identify and categorize language
that is patronizing or condescending towards vulnerable communities (e.g.
refugees, homeless people, poor families). While the prevalence of such
language in the general media has long been shown to have harmful effects, it
differs from other types of harmful language, in that it is generally used
unconsciously and with good intentions. We furthermore believe that the often
subtle nature of patronizing and condescending language (PCL) presents an
interesting technical challenge for the NLP community. Our analysis of the
proposed dataset shows that identifying PCL is hard for standard NLP models,
with language models such as BERT achieving the best results.
- Abstract(参考訳): 本稿では,nlpモデルの開発を支援し,脆弱なコミュニティ(難民,ホームレス,貧乏家族など)を保護あるいは軽視する言語を識別し分類することを目的とした,新しい注釈付きデータセットを提案する。
一般メディアにおけるそのような言語の普及は長年に渡り有害な効果があることが示されているが、他の種類の有害な言語とは異なっている。
さらに,PCLの微妙な性質は,NLPコミュニティにとって興味深い技術的課題であると考えている。
提案したデータセットを解析した結果,標準NLPモデルではPCLの同定が困難であり,BERTなどの言語モデルが最適であることがわかった。
関連論文リスト
- Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering
Dehumanizing Language [11.946719280041789]
本稿では, GPT-4, GPT-3.5, LLAMA-2を含む最先端NLPモデルの性能評価を行った。
以上の結果から,これらのモデルが潜在的な可能性を示し,より広範なヘイトスピーチと非人間化言語を区別する精度が70%に達する一方で,バイアスも示していることがわかった。
論文 参考訳(メタデータ) (2024-02-21T13:57:36Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Conversations in Galician: a Large Language Model for an
Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。
52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。
データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文 参考訳(メタデータ) (2023-11-07T08:52:28Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。