論文の概要: Agreeing to Disagree: Annotating Offensive Language Datasets with
Annotators' Disagreement
- arxiv url: http://arxiv.org/abs/2109.13563v1
- Date: Tue, 28 Sep 2021 08:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:59:33.324661
- Title: Agreeing to Disagree: Annotating Offensive Language Datasets with
Annotators' Disagreement
- Title(参考訳): 診断に同意する:アノテーションによる攻撃的な言語データセットの注釈付け
- Authors: Elisa Leonardelli, Stefano Menini, Alessio Palmero Aprosio, Marco
Guerini, Sara Tonelli
- Abstract要約: 我々は、アノテータ間の合意のレベルに着目し、攻撃的な言語データセットを作成するためにデータを選択する。
本研究は、異なるトピックをカバーする英語ツイートの3つの新しいデータセットを作成することを含む。
合意の低さがあるような難しいケースは、必ずしも品質の悪いアノテーションによるものではないことを示す。
- 参考スコア(独自算出の注目度): 7.288480094345606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since state-of-the-art approaches to offensive language detection rely on
supervised learning, it is crucial to quickly adapt them to the continuously
evolving scenario of social media. While several approaches have been proposed
to tackle the problem from an algorithmic perspective, so to reduce the need
for annotated data, less attention has been paid to the quality of these data.
Following a trend that has emerged recently, we focus on the level of agreement
among annotators while selecting data to create offensive language datasets, a
task involving a high level of subjectivity. Our study comprises the creation
of three novel datasets of English tweets covering different topics and having
five crowd-sourced judgments each. We also present an extensive set of
experiments showing that selecting training and test data according to
different levels of annotators' agreement has a strong effect on classifiers
performance and robustness. Our findings are further validated in cross-domain
experiments and studied using a popular benchmark dataset. We show that such
hard cases, where low agreement is present, are not necessarily due to
poor-quality annotation and we advocate for a higher presence of ambiguous
cases in future datasets, particularly in test sets, to better account for the
different points of view expressed online.
- Abstract(参考訳): 攻撃的言語検出への最先端のアプローチは教師付き学習に依存しているため、ソーシャルメディアの継続的な進化シナリオに素早く適応することが重要である。
アルゴリズム的な観点からこの問題に取り組むためにいくつかのアプローチが提案されているが、注釈付きデータの必要性を減らすため、これらのデータの品質にはあまり注意が払われていない。
最近出現したトレンドに続き、アノテータ間の合意のレベルに着目し、攻撃的な言語データセットを作成するためにデータを選択する。
本研究は、異なるトピックをカバーする英語ツイートの3つの新しいデータセットを作成し、それぞれ5つのクラウドソースによる判断を行う。
また,アノテータ合意の異なるレベルに応じたトレーニングデータとテストデータの選択が,分類器の性能とロバスト性に強い影響を与えることを示す実験を行った。
この結果はクロスドメイン実験でさらに検証され、人気のあるベンチマークデータセットを用いて研究されました。
合意の低いケースは必ずしも品質の悪いアノテーションによるものではないことを示し、将来のデータセット、特にテストセットにおける曖昧なケースの存在を、オンラインで表現されるさまざまな視点をよりよく説明するために推奨する。
関連論文リスト
- When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Is one annotation enough? A data-centric image classification benchmark
for noisy and ambiguous label estimation [2.2807344448218503]
実世界の9つのデータセットと1つの画像に複数のアノテーションを付加した,データ中心の画像分類ベンチマークを提案する。
複数のアノテーションが実際のクラス分布をよりよく近似できることを示す。
ハードラベルはデータのあいまいさを捉えることができず、これは過信モデルの一般的な問題につながる可能性がある。
論文 参考訳(メタデータ) (2022-07-13T14:17:21Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Investigating User Radicalization: A Novel Dataset for Identifying
Fine-Grained Temporal Shifts in Opinion [7.028604573959653]
本稿では,微妙な意見揺らぎをモデル化し,微粒な姿勢を検出するための,革新的な注釈付きデータセットを提案する。
データセットには、時間とともに、および会話スレッド全体で、十分な量のスタンスポラリティとユーザ毎の強度ラベルが含まれている。
すべての投稿は非専門家によって注釈付けされ、データの大部分は専門家によって注釈付けされている。
論文 参考訳(メタデータ) (2022-04-16T09:31:25Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - SCDE: Sentence Cloze Dataset with High Quality Distractors From
Examinations [30.86193649398141]
本稿では,文予測による計算モデルの性能評価のためのデータセットであるSCDEを紹介する。
SCDE (英語: SCDE) は、公立学校の英語試験から収集した人為的な文のクローゼデータセットである。
論文 参考訳(メタデータ) (2020-04-27T16:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。