論文の概要: Is Your Toxicity My Toxicity? Exploring the Impact of Rater Identity on
Toxicity Annotation
- arxiv url: http://arxiv.org/abs/2205.00501v1
- Date: Sun, 1 May 2022 16:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 12:46:11.328716
- Title: Is Your Toxicity My Toxicity? Exploring the Impact of Rater Identity on
Toxicity Annotation
- Title(参考訳): あなたの毒性は私の毒性か?
毒性アノテーションに対するラターアイデンティティの影響を探る
- Authors: Nitesh Goyal, Ian Kivlichan, Rachel Rosen, Lucy Vasserman
- Abstract要約: 我々は、ラッカーの自己記述されたアイデンティティが、オンラインコメントにおける毒性の注釈付け方法にどのように影響するかを研究する。
その結果、レーダのアイデンティティは、レーダがアイデンティティ関連アノテーションに対して毒性を注釈する方法において、統計的に重要な要素であることが判明した。
さまざまなレーダプールからアノテーションに関するモデルをトレーニングし、これらのモデルのスコアを複数のテストセットのコメントで比較しました。
- 参考スコア(独自算出の注目度): 1.1699472346137738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models are commonly used to detect toxicity in online
conversations. These models are trained on datasets annotated by human raters.
We explore how raters' self-described identities impact how they annotate
toxicity in online comments. We first define the concept of specialized rater
pools: rater pools formed based on raters' self-described identities, rather
than at random. We formed three such rater pools for this study--specialized
rater pools of raters from the U.S. who identify as African American, LGBTQ,
and those who identify as neither. Each of these rater pools annotated the same
set of comments, which contains many references to these identity groups. We
found that rater identity is a statistically significant factor in how raters
will annotate toxicity for identity-related annotations. Using preliminary
content analysis, we examined the comments with the most disagreement between
rater pools and found nuanced differences in the toxicity annotations. Next, we
trained models on the annotations from each of the different rater pools, and
compared the scores of these models on comments from several test sets.
Finally, we discuss how using raters that self-identify with the subjects of
comments can create more inclusive machine learning models, and provide more
nuanced ratings than those by random raters.
- Abstract(参考訳): 機械学習モデルは、オンライン会話における毒性を検出するために一般的に使用される。
これらのモデルは、人間がアノテートしたデータセットに基づいて訓練される。
我々は、ラッカーの自己記述されたアイデンティティがオンラインコメントの毒性にどう影響するかを調査する。
まず,利率プールの概念を定義した。利率プールはランダムではなく,利率者の自己記述されたアイデンティティに基づいて形成される。
本研究は、アフリカ系アメリカ人、LGBTQ、およびその両方を識別する米国からのレイパーのプールを特別化した3つのレーラープールを構築した。
これらのraterプールは、同じコメントセットにアノテートされ、これらのアイデンティティグループへの多くの参照が含まれている。
私たちは、パーサーのアイデンティティが、パーサーがアイデンティティに関連したアノテーションに対して毒性を注釈する方法において、統計的に重要な要因であることを見出しました。
予備的コンテンツ分析を用いて,raterプール間の不一致が最も多いコメントを調査し,有毒性アノテーションの微妙な差異を見いだした。
次に、さまざまなraterプールのアノテーションのモデルをトレーニングし、これらのモデルのスコアをいくつかのテストセットのコメントで比較した。
最後に、コメントの主題と自己識別するラガーを用いて、より包括的な機械学習モデルを作成し、ランダムなラガーよりも詳細なレーティングを提供する方法について論じる。
関連論文リスト
- Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - Unveiling Social Media Comments with a Novel Named Entity Recognition System for Identity Groups [2.5849042763002426]
我々はアイデンティティグループのための名前付きエンティティ認識(NER)システムを開発した。
我々のツールは、文が攻撃を含むかどうかを検知するだけでなく、上記のグループに対応する文トークンもタグ付けする。
ソーシャルメディアに関するケーススタディで,Facebookのコメントを注釈付けし,IDグループに言及するニュースに関連するコメントと比較し,ツールの有用性を検証した。
論文 参考訳(メタデータ) (2024-05-13T19:33:18Z) - Modeling subjectivity (by Mimicking Annotator Annotation) in toxic
comment identification across diverse communities [3.0284081180864675]
本研究は, 定量的解析を用いて, 注釈の相違点から直感的な相違点を同定することを目的とする。
また、トレーニングデータのサイズによって、毒性に関する様々な視点を模倣するモデルの能力についても評価する。
主観性は全アノテータ群で明らかであり,多数決投票の欠点を実証している。
論文 参考訳(メタデータ) (2023-11-01T00:17:11Z) - Privacy Assessment on Reconstructed Images: Are Existing Evaluation
Metrics Faithful to Human Perception? [86.58989831070426]
本研究では,手作りのメトリクスの忠実さを,再構成画像からの人間のプライバシー情報の認識に適用する。
本稿では,SemSimと呼ばれる学習に基づく尺度を提案し,オリジナル画像と再構成画像のセマンティック類似性を評価する。
論文 参考訳(メタデータ) (2023-09-22T17:58:04Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Toxic Comments Hunter : Score Severity of Toxic Comments [0.0]
本実験では,有毒なコメントに関連するさまざまなデータセットを収集する。
コメントデータの特徴から,データクリーニングや特徴抽出を行う。
モデル構築に関しては,TFIDFに基づくモデルのトレーニングにトレーニングセットを使用し,Bertモデルを微調整した。
論文 参考訳(メタデータ) (2022-02-15T07:35:52Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - SS-BERT: Mitigating Identity Terms Bias in Toxic Comment Classification
by Utilising the Notion of "Subjectivity" and "Identity Terms" [6.2384249607204]
有害コメント分類におけるそのようなバイアスに対処する新しい手法を提案する。
同一性項を特徴とするグループに関するコメントが作成されると、そのコメントが有害である可能性は、コメントの主観性レベルと関連している、という仮説を立てる。
論文 参考訳(メタデータ) (2021-09-06T18:40:06Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Learning Person Re-identification Models from Videos with Weak
Supervision [53.53606308822736]
本稿では、監督の弱いビデオから人物再識別モデルを学ぶ問題について紹介する。
このようなビデオレベルラベルを用いた人物再識別のための多段階注意学習フレームワークを提案する。
注意重みは、ビデオ中の人物追跡レットではなく、すべての人物画像に基づいて得られるため、学習したモデルはノイズの多いアノテーションの影響を受けにくくなる。
論文 参考訳(メタデータ) (2020-07-21T07:23:32Z) - Reading Between the Demographic Lines: Resolving Sources of Bias in
Toxicity Classifiers [0.0]
パースペクティブAPIはおそらく業界で最も広く使われている毒性分類器である。
Googleのモデルは、一般的に標的とするグループのアイデンティティを参照する単語を含むコメントに、より高い毒性スコアを不公平に割り当てる傾向がある。
我々は,強い分類性能を維持しつつ,意図しないバイアスを低減する目的で,いくつかの毒性分類器を構築した。
論文 参考訳(メタデータ) (2020-06-29T21:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。