論文の概要: On Analyzing Annotation Consistency in Online Abusive Behavior Datasets
- arxiv url: http://arxiv.org/abs/2006.13507v1
- Date: Wed, 24 Jun 2020 06:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:07:45.910638
- Title: On Analyzing Annotation Consistency in Online Abusive Behavior Datasets
- Title(参考訳): オンライン乱用行動データセットにおけるアノテーション一貫性の分析について
- Authors: Md Rabiul Awal, Rui Cao, Roy Ka-Wei Lee, Sandra Mitrovi\'c
- Abstract要約: 研究者たちは、オンライン虐待コンテンツデータセットの提案、収集、注釈付けを行った。
これらのデータセットは、オンラインヘイトスピーチや虐待行動の研究を促進する上で重要な役割を果たす。
ラベルのセマンティックな違いが曖昧になる可能性があるため、与えられたテキストの真のラベルであるべきものについては、しばしば批判的である。
- 参考スコア(独自算出の注目度): 5.900114841365645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online abusive behavior is an important issue that breaks the cohesiveness of
online social communities and even raises public safety concerns in our
societies. Motivated by this rising issue, researchers have proposed,
collected, and annotated online abusive content datasets. These datasets play a
critical role in facilitating the research on online hate speech and abusive
behaviors. However, the annotation of such datasets is a difficult task; it is
often contentious on what should be the true label of a given text as the
semantic difference of the labels may be blurred (e.g., abusive and hate) and
often subjective. In this study, we proposed an analytical framework to study
the annotation consistency in online hate and abusive content datasets. We
applied our proposed framework to evaluate the consistency of the annotation in
three popular datasets that are widely used in online hate speech and abusive
behavior studies. We found that there is still a substantial amount of
annotation inconsistency in the existing datasets, particularly when the labels
are semantically similar.
- Abstract(参考訳): オンラインの虐待行為は、オンライン社会の結束性を損なう重要な問題であり、社会における公衆安全の懸念も提起する。
この問題に動機づけられた研究者たちは、オンライン乱用コンテンツデータセットを提案し、収集し、注釈付けした。
これらのデータセットは、オンラインヘイトスピーチや虐待行動の研究を促進する上で重要な役割を果たす。
しかし、そのようなデータセットのアノテーションは難しい作業であり、ラベルの意味的な違いがぼやけ(例えば虐待や憎しみ)され、しばしば主観的になるため、与えられたテキストの真のラベルとなるべきものについてしばしば議論される。
本研究では,オンラインヘイトおよび虐待コンテンツデータセットにおけるアノテーションの一貫性を研究するための分析フレームワークを提案する。
提案手法を適用し,オンラインヘイトスピーチや虐待行動研究で広く利用されている3つの一般的なデータセットにおけるアノテーションの一貫性を評価する。
既存のデータセットには,特にラベルがセマンティックに類似している場合には,いまだにかなりの量のアノテーションの不整合があることが分かりました。
関連論文リスト
- UNIT: Unsupervised Online Instance Segmentation through Time [69.2787246878521]
クラスに依存しないオンラインインスタンスのセグメンテーションとトラッキングの問題に対処する。
オブジェクトのオンライントラッキングを可能にする新しいトレーニングレシピを提案する。
我々のネットワークは擬似ラベルで訓練されており、手動のアノテーションは不要である。
論文 参考訳(メタデータ) (2024-09-12T09:47:45Z) - HarmPot: An Annotation Framework for Evaluating Offline Harm Potential of Social Media Text [1.304892050913381]
我々は「ハームポテンシャル」を、現実世界の物理的損害(暴力)を引き起こすオンラインの公共のポストの可能性として定義する。
本稿では、テキストの異なる側面でデータに注釈を付けるフレームワーク/アノテーションスキーマの開発について論じる。
論文 参考訳(メタデータ) (2024-03-17T06:23:25Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - A Taxonomy of Rater Disagreements: Surveying Challenges & Opportunities
from the Perspective of Annotating Online Toxicity [15.23055494327071]
Toxicityは、オンライン空間でますます一般的で深刻な問題になっている。
機械学習の研究の豊富な行は、オンライン毒性を計算的に検出し緩和することに焦点を当てている。
近年の研究では,本課題の主観的性質を考慮した会計の重要性が指摘されている。
論文 参考訳(メタデータ) (2023-11-07T21:00:51Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Adapting to Online Label Shift with Provable Guarantees [137.89382409682233]
オンラインラベルシフトの問題を定式化し,検討する。
非定常性と監督の欠如は、この問題に取り組むことを困難にしている。
我々のアルゴリズムは最適な動的後悔を享受しており、性能が透かしの性質と競合していることを示している。
論文 参考訳(メタデータ) (2022-07-05T15:43:14Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Towards Ethics by Design in Online Abusive Content Detection [7.163723138100273]
研究の成果は、ヘイトスピーチの検出、毒性、サイバーいじめなど、関連するいくつかのサブエリアに広がっている。
倫理的問題を先導し、2段階のプロセスとして統一されたフレームワークを提案する。
新たなフレームワークは、Ethics by Designの原則によってガイドされており、より正確で信頼性の高いモデルを構築するためのステップである。
論文 参考訳(メタデータ) (2020-10-28T13:10:24Z) - ETHOS: an Online Hate Speech Detection Dataset [6.59720246184989]
本稿では,YouTube と Reddit のコメントに基づいて,Final-Eight クラウドソーシングプラットフォームを用いて検証した,バイナリとマルチラベルの2種類のテキストデータセットである 'ETHOS' を紹介する。
我々の重要な前提は、そのような時間のかかるプロセスから少量のラベル付きデータを入手しても、調査対象の素材でヘイトスピーチの発生を保証できるということである。
論文 参考訳(メタデータ) (2020-06-11T08:59:57Z) - WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文 参考訳(メタデータ) (2020-03-13T10:26:45Z) - Don't Judge an Object by Its Context: Learning to Overcome Contextual
Bias [113.44471186752018]
既存のモデルは、認識精度を向上させるために、オブジェクトとそのコンテキスト間の共起を利用することが多い。
この研究は、学習した特徴表現の堅牢性を改善するために、そのような文脈バイアスに対処することに焦点を当てている。
論文 参考訳(メタデータ) (2020-01-09T18:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。