論文の概要: How We Define Harm Impacts Data Annotations: Explaining How Annotators
Distinguish Hateful, Offensive, and Toxic Comments
- arxiv url: http://arxiv.org/abs/2309.15827v1
- Date: Tue, 12 Sep 2023 19:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-01 12:05:13.876119
- Title: How We Define Harm Impacts Data Annotations: Explaining How Annotators
Distinguish Hateful, Offensive, and Toxic Comments
- Title(参考訳): Harmがデータアノテーションにどのように影響するか - アノテーションが有害で有害なコメントを区別する方法を説明する
- Authors: Angela Sch\"opke-Gonzalez, Siqi Wu, Sagar Kumar, Paul J. Resnick,
Libby Hemphill
- Abstract要約: 研究者が「ハーム」を定義する方法がアノテーションの結果に影響を及ぼすかどうかを考察する。
我々は、調和の定義の特徴と注釈者の個人的特徴が、アノテーションがこれらの用語をどう使うかを説明する。
- 参考スコア(独自算出の注目度): 3.8021618306213094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Computational social science research has made advances in machine learning
and natural language processing that support content moderators in detecting
harmful content. These advances often rely on training datasets annotated by
crowdworkers for harmful content. In designing instructions for annotation
tasks to generate training data for these algorithms, researchers often treat
the harm concepts that we train algorithms to detect - 'hateful', 'offensive',
'toxic', 'racist', 'sexist', etc. - as interchangeable. In this work, we
studied whether the way that researchers define 'harm' affects annotation
outcomes. Using Venn diagrams, information gain comparisons, and content
analyses, we reveal that annotators do not use the concepts 'hateful',
'offensive', and 'toxic' interchangeably. We identify that features of harm
definitions and annotators' individual characteristics explain much of how
annotators use these terms differently. Our results offer empirical evidence
discouraging the common practice of using harm concepts interchangeably in
content moderation research. Instead, researchers should make specific choices
about which harm concepts to analyze based on their research goals. Recognizing
that researchers are often resource constrained, we also encourage researchers
to provide information to bound their findings when their concepts of interest
differ from concepts that off-the-shelf harmful content detection algorithms
identify. Finally, we encourage algorithm providers to ensure their instruments
can adapt to contextually-specific content detection goals (e.g., soliciting
instrument users' feedback).
- Abstract(参考訳): 計算社会科学の研究は、有害なコンテンツを検出するコンテンツモデレーターをサポートする機械学習と自然言語処理の進歩を遂げた。
これらの進歩は、しばしば、有害なコンテンツに対してクラウドワーカーが注釈付けしたトレーニングデータセットに依存している。
これらのアルゴリズムのトレーニングデータを生成するためのアノテーションタスクの指示を設計する際、研究者はしばしば、アルゴリズムが検出するように訓練する有害な概念("hateful"、"offensive"、"toxic"、"racist"、"sexist"など)を扱う。
-交換可能。
本研究では,研究者が「ハーム」を定義する方法が注釈結果に影響を及ぼすかどうかを検討した。
vennダイアグラム、情報ゲイン比較、コンテンツ分析を用いて、アノテーションは「ハテフル」、「攻撃的」、および「有害」の概念を相互に使用しないことを明らかにした。
我々は、調和の定義の特徴と注釈者の個人的特徴が、アノテーションがこれらの用語をどう使うかを説明する。
本研究は,コンテンツモデレーション研究において,有害概念を相互に利用するという一般的な実践を損なう経験的証拠を提供する。
その代わり、研究者は研究目標に基づいて、どの概念に害を与えるかという特定の選択をする必要がある。
研究者は、しばしばリソースに制約があることを認識し、興味のある概念が、既成の有害なコンテンツ検出アルゴリズムが識別する概念と異なる場合に、発見を束縛する情報を提供することも推奨します。
最後に、アルゴリズムプロバイダに対して、その機器がコンテキスト固有のコンテンツ検出目標(例えば、インスツルメンツユーザのフィードバックを暗唱する)に適応できることを推奨する。
関連論文リスト
- Decoding the Narratives: Analyzing Personal Drug Experiences Shared on Reddit [1.080878521069079]
本研究は,物質利用経験に関するオンラインユーザ生成テキストを解析するための多レベル多ラベル分類モデルを開発することを目的とする。
注釈付きデータの集合上で様々なマルチラベル分類アルゴリズムを用いて、GPT-4が命令、定義、例によって誘導された場合、他の全てのモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-06-17T21:56:57Z) - Beyond Behaviorist Representational Harms: A Plan for Measurement and Mitigation [1.7355698649527407]
本研究は,現在定義されている表現的害の定義に焦点をあてて,含まないものと含まないものを識別する。
私たちの研究は、表現的害を繰り返すための大きな言語モデルのユニークな脆弱性を強調します。
本研究の目的は,表現的害の定義を拡大するための枠組みを確立することである。
論文 参考訳(メタデータ) (2024-01-25T00:54:10Z) - Towards Procedural Fairness: Uncovering Biases in How a Toxic Language
Classifier Uses Sentiment Information [7.022948483613112]
この研究は、不公平なプロセスが不公平な結果をもたらす手続き的公正性を評価するための一歩である。
生成された知識は、トレーニングデータセットにおいてアイデンティティ用語以外の重要な概念が適切に表現されていることを保証するために、デバイアス技術(debiasing techniques)をガイドすることができる。
論文 参考訳(メタデータ) (2022-10-19T16:03:25Z) - Rumor Detection with Self-supervised Learning on Texts and Social Graph [101.94546286960642]
異種情報ソース上での自己教師型学習を対照的に提案し,それらの関係を明らかにするとともに,噂をよりよく特徴付ける。
我々はこの枠組みをSRD(Self-supervised Rumor Detection)と呼ぶ。
3つの実世界のデータセットに対する大規模な実験により、ソーシャルメディア上での噂の自動検出におけるSRDの有効性が検証された。
論文 参考訳(メタデータ) (2022-04-19T12:10:03Z) - Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文 参考訳(メタデータ) (2022-04-10T02:27:30Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z) - Machine Learning Explanations to Prevent Overtrust in Fake News
Detection [64.46876057393703]
本研究では、ニュースレビュープラットフォームに組み込んだ説明可能なAIアシスタントが、フェイクニュースの拡散と戦う効果について検討する。
我々は、ニュースレビューと共有インターフェースを設計し、ニュース記事のデータセットを作成し、4つの解釈可能なフェイクニュース検出アルゴリズムを訓練する。
説明可能なAIシステムについてより深く理解するために、説明プロセスにおけるユーザエンゲージメント、メンタルモデル、信頼、パフォーマンス対策の相互作用について議論する。
論文 参考訳(メタデータ) (2020-07-24T05:42:29Z) - Natural language technology and query expansion: issues,
state-of-the-art and perspectives [0.0]
クエリのあいまいさや誤解釈を引き起こす言語特性と、追加の要因は、ユーザの情報ニーズを正確に表現する能力に影響を与える。
汎用言語に基づく問合せ拡張フレームワークの解剖学を概説し,モジュールに基づく分解を提案する。
それぞれのモジュールについて、文献における最先端のソリューションをレビューし、使用するテクニックの光の下で分類する。
論文 参考訳(メタデータ) (2020-04-23T11:39:07Z) - A Survey of Adversarial Learning on Graphs [59.21341359399431]
本稿では,グラフ逆学習タスクに関する既存の研究を考察し,要約する。
具体的には、グラフ解析タスクにおける攻撃と防御に関する既存の作業を調査し、統一する。
我々は、関連する評価指標の重要性を強調し、それらを総合的に調査し、要約する。
論文 参考訳(メタデータ) (2020-03-10T12:48:00Z) - Stereotypical Bias Removal for Hate Speech Detection Task using
Knowledge-based Generalizations [16.304516254043865]
ヘイトスピーチ検出のための非構造化テキストデータからのバイアス緩和について検討する。
バイアスのない学習に知識に基づく一般化を活用する新しい手法を提案する。
実世界の2つのデータセット、Wikipedia Talk PagesデータセットとTwitterデータセットを用いて実験したところ、知識に基づく一般化の使用により、より良いパフォーマンスが得られることがわかった。
論文 参考訳(メタデータ) (2020-01-15T18:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。