論文の概要: Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties
- arxiv url: http://arxiv.org/abs/2401.11487v1
- Date: Sun, 21 Jan 2024 13:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:23:22.192071
- Title: Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties
- Title(参考訳): インクルーシティ向上に向けて: 英語の多様なツイートコーパス
- Authors: Nhi Pham, Lachlan Pham, Adam L. Meyers
- Abstract要約: 私たちは、その根本にあるバイアス(データそのもの)の問題に対処することを目指しています。
英語の多言語話者の割合が低い国からのツイートのデータセットをキュレートする。
ベストプラクティスに従って、我々の成長するコーパスには7カ国から170,800のツイートが写っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The prevalence of social media presents a growing opportunity to collect and
analyse examples of English varieties. Whilst usage of these varieties was -
and, in many cases, still is - used only in spoken contexts or hard-to-access
private messages, social media sites like Twitter provide a platform for users
to communicate informally in a scrapeable format. Notably, Indian English
(Hinglish), Singaporean English (Singlish), and African-American English (AAE)
can be commonly found online. These varieties pose a challenge to existing
natural language processing (NLP) tools as they often differ orthographically
and syntactically from standard English for which the majority of these tools
are built. NLP models trained on standard English texts produced biased
outcomes for users of underrepresented varieties. Some research has aimed to
overcome the inherent biases caused by unrepresentative data through techniques
like data augmentation or adjusting training models.
We aim to address the issue of bias at its root - the data itself. We curate
a dataset of tweets from countries with high proportions of underserved English
variety speakers, and propose an annotation framework of six categorical
classifications along a pseudo-spectrum that measures the degree of standard
English and that thereby indirectly aims to surface the manifestations of
English varieties in these tweets. Following best annotation practices, our
growing corpus features 170,800 tweets taken from 7 countries, labeled by
annotators who are from those countries and can communicate in
regionally-dominant varieties of English. Our corpus highlights the accuracy
discrepancies in pre-trained language identifiers between western English and
non-western (i.e., less standard) English varieties. We hope to contribute to
the growing literature identifying and reducing the implicit demographic
discrepancies in NLP.
- Abstract(参考訳): ソーシャルメディアの普及は、英語の事例を収集し分析する機会を増やしている。
これらの品種の使用は、多くの場合、音声コンテキストやアクセスが難しいプライベートメッセージでのみ使用されているが、Twitterのようなソーシャルメディアサイトは、ユーザーが非公式にスクラップ可能な形式でコミュニケーションするためのプラットフォームを提供している。
特に、インド英語(ヒングリッシュ)、シンガポール英語(シングリッシュ)、アフリカ系アメリカ人英語(AAE)はオンラインで一般に見られる。
これらの変種は、既存の自然言語処理(NLP)ツールに対して、ほとんどのツールが構築されている標準英語と正書法的に、構文的に異なることが多いため、課題となる。
標準英語のテキストで訓練されたNLPモデルは、表現不足の品種のユーザに対してバイアスのある結果を生み出した。
いくつかの研究は、データ拡張やトレーニングモデルの調整といったテクニックを通じて、非表現的なデータに起因する固有のバイアスを克服することを目的としている。
私たちは、バイアスの根源であるデータそのものの問題に対処したいと思っています。
本研究では,英語話者の比率が低い国からのつぶやきのデータセットをキュレートし,標準英語の度合いを測る疑似スペクトルに沿った6つのカテゴリー分類のアノテーションフレームワークを提案する。
ベストプラクティスに従って、我々の成長するコーパスは7カ国から170,800のツイートを抽出し、それらの国から来たアノテーターによってラベル付けされ、地域的に支配的な英語でコミュニケーションできる。
このコーパスは、西部英語と非西部英語(すなわち標準的ではない)の言語識別子の精度の相違を強調する。
我々は,NLPにおける暗黙的な人口格差の特定と低減に寄与したい。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Mitigating Racial Biases in Toxic Language Detection with an
Equity-Based Ensemble Framework [9.84413545378636]
最近の研究では、アフリカ系アメリカ人の英語を書いているユーザーに対する人種的偏見が、人気のある有毒な言語データセットに存在することが示されている。
これらのバイアスの発生源をよりよく理解するために、さらに説明的公正度指標を提案する。
提案手法は,モデルがこれらのデータセットから学習する人種的バイアスを大幅に低減することを示す。
論文 参考訳(メタデータ) (2021-09-27T15:54:05Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Examining Racial Bias in an Online Abuse Corpus with Structural Topic
Modeling [0.30458514384586405]
我々は、ソーシャルメディア投稿における人種的偏見を調べるために、構造的トピックモデリングを用いる。
我々は、アフリカ系アメリカ人の英語で書かれたツイートの予測確率を示す追加機能を追加することにより、乱用言語データセットを増強する。
論文 参考訳(メタデータ) (2020-05-26T21:02:43Z) - It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文 参考訳(メタデータ) (2020-05-09T04:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。