論文の概要: Designing Toxic Content Classification for a Diversity of Perspectives
- arxiv url: http://arxiv.org/abs/2106.04511v1
- Date: Fri, 4 Jun 2021 16:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 21:03:53.525107
- Title: Designing Toxic Content Classification for a Diversity of Perspectives
- Title(参考訳): 視点の多様性のための毒性コンテンツ分類の設計
- Authors: Deepak Kumar, Patrick Gage Kelley, Sunny Consolvo, Joshua Mason, Elie
Bursztein, Zakir Durumeric, Kurt Thomas, Michael Bailey
- Abstract要約: 我々は17,280人の参加者を対象に,有毒なコンテンツを構成するものに対するユーザの期待が,人口動態,信念,個人的経験によってどのように異なるかを調査した。
歴史的に嫌がらせのリスクがあるグループは、Reddit、Twitter、あるいは4chanから無作為なコメントを有害であると警告する傾向にある。
JigsawのパースペクティブAPIのような、現在の一大毒性分類アルゴリズムは、パーソナライズされたモデルチューニングによって、平均86%の精度で改善できることを示す。
- 参考スコア(独自算出の注目度): 15.466547856660803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we demonstrate how existing classifiers for identifying toxic
comments online fail to generalize to the diverse concerns of Internet users.
We survey 17,280 participants to understand how user expectations for what
constitutes toxic content differ across demographics, beliefs, and personal
experiences. We find that groups historically at-risk of harassment - such as
people who identify as LGBTQ+ or young adults - are more likely to to flag a
random comment drawn from Reddit, Twitter, or 4chan as toxic, as are people who
have personally experienced harassment in the past. Based on our findings, we
show how current one-size-fits-all toxicity classification algorithms, like the
Perspective API from Jigsaw, can improve in accuracy by 86% on average through
personalized model tuning. Ultimately, we highlight current pitfalls and new
design directions that can improve the equity and efficacy of toxic content
classifiers for all users.
- Abstract(参考訳): 本研究では,オンライン上で有害コメントを識別する既存の分類器が,インターネット利用者の多様な関心事に一般化できないことを示す。
我々は17,280人の参加者を対象に,有毒なコンテンツを構成するものに対するユーザの期待が,人口動態,信念,個人的経験によってどのように異なるかを調査した。
LGBTQ+や若者を識別する人たちなど、歴史的に嫌がらせのリスクが高いグループは、RedditやTwitter、あるいは4chanからのランダムなコメントを、過去に個人的にハラスメントを経験した人たちのように有毒であると警告する傾向にある。
この結果から,Jigsaw の Perspective API など,現在の一大毒性分類アルゴリズムが,パーソナライズされたモデルチューニングによって,平均 86% の精度向上を実現していることを示す。
最終的には、すべてのユーザに対する有害コンテンツ分類器の公平性と有効性を改善するための、現在の落とし穴と新しい設計指針を強調する。
関連論文リスト
- Tracking Patterns in Toxicity and Antisocial Behavior Over User Lifetimes on Large Social Media Platforms [0.2630859234884723]
われわれはRedditとWikipediaの5億件近いコメントで14年間にわたって毒性を分析している。
Reddit上で最も有毒な行動は、最もアクティブなユーザーによって集計され、最も有毒な行動は、最もアクティブでないユーザーによって集計され、Wikipedia上で最も有毒な行動であることがわかった。
論文 参考訳(メタデータ) (2024-07-12T15:45:02Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Twits, Toxic Tweets, and Tribal Tendencies: Trends in Politically Polarized Posts on Twitter [5.161088104035108]
個人レベルでの毒性と,Twitter/X上でのトピックレベルに寄与するパーシスタンスと感情分極が果たす役割について検討する。
43,151人のTwitter/Xユーザーから8960万のツイートを収集した後、パーティショニングを含むいくつかのアカウントレベルの特徴が、ユーザーが有害コンテンツを投稿する頻度を予測するかを決定する。
論文 参考訳(メタデータ) (2023-07-19T17:24:47Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - Classification of social media Toxic comments using Machine learning
models [0.0]
この要約は、ソーシャルメディアプラットフォームにおける有害なコメントの問題を概説している。
この行動は反社会的行動と呼ばれ、オンライン討論、コメント、戦いの間に起こる。
明示的な言語を含むコメントは、有毒、重篤な有毒、わいせつ、脅迫、侮辱、同一性嫌悪など、様々なカテゴリに分類される。
ユーザーを不快な言葉から守るために、企業はコメントを掲示し、ユーザーをブロックし始めた。
論文 参考訳(メタデータ) (2023-04-14T05:40:11Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - News consumption and social media regulations policy [70.31753171707005]
我々は、ニュース消費とコンテンツ規制の間の相互作用を評価するために、反対のモデレーション手法であるTwitterとGabを強制した2つのソーシャルメディアを分析した。
以上の結果から,Twitterが追求するモデレーションの存在は,疑わしいコンテンツを著しく減少させることがわかった。
Gabに対する明確な規制の欠如は、ユーザが両方のタイプのコンテンツを扱う傾向を生じさせ、ディスカウント/エンドレスメントの振る舞いを考慮に入れた疑わしいコンテンツに対してわずかに好みを示す。
論文 参考訳(メタデータ) (2021-06-07T19:26:32Z) - Reading Between the Demographic Lines: Resolving Sources of Bias in
Toxicity Classifiers [0.0]
パースペクティブAPIはおそらく業界で最も広く使われている毒性分類器である。
Googleのモデルは、一般的に標的とするグループのアイデンティティを参照する単語を含むコメントに、より高い毒性スコアを不公平に割り当てる傾向がある。
我々は,強い分類性能を維持しつつ,意図しないバイアスを低減する目的で,いくつかの毒性分類器を構築した。
論文 参考訳(メタデータ) (2020-06-29T21:40:55Z) - Information Consumption and Social Response in a Segregated Environment:
the Case of Gab [74.5095691235917]
この研究は、COVID-19トピックに関するGab内のインタラクションパターンの特徴を提供する。
疑わしい、信頼できるコンテンツに対する社会的反応には、統計的に強い違いはない。
本研究は,協調した不正確な行動の理解と情報操作の早期警戒に関する知見を提供する。
論文 参考訳(メタデータ) (2020-06-03T11:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。