論文の概要: BiasX: "Thinking Slow" in Toxic Content Moderation with Explanations of
Implied Social Biases
- arxiv url: http://arxiv.org/abs/2305.13589v1
- Date: Tue, 23 May 2023 01:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 19:53:02.020082
- Title: BiasX: "Thinking Slow" in Toxic Content Moderation with Explanations of
Implied Social Biases
- Title(参考訳): biasx: 有害コンテンツモデレーションにおける「ゆっくり考える」と社会的バイアスの示唆
- Authors: Yiming Zhang, Sravani Nanduri, Liwei Jiang, Tongshuang Wu, Maarten Sap
- Abstract要約: BiasXは、文の暗黙の社会的バイアスを自由テキストで説明することで、コンテンツモデレーションのセットアップを強化するフレームワークである。
被験者は, 有害物質(非毒性物質)を的確に同定する際の説明から, 有意な利益を享受できることが示唆された。
以上の結果から, より思慮深い毒性抑制を促すために, 自由テキストの説明を用いることが期待できることを示す。
- 参考スコア(独自算出の注目度): 28.519851740902258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxicity annotators and content moderators often default to mental shortcuts
when making decisions. This can lead to subtle toxicity being missed, and
seemingly toxic but harmless content being over-detected. We introduce BiasX, a
framework that enhances content moderation setups with free-text explanations
of statements' implied social biases, and explore its effectiveness through a
large-scale crowdsourced user study. We show that indeed, participants
substantially benefit from explanations for correctly identifying subtly
(non-)toxic content. The quality of explanations is critical: imperfect
machine-generated explanations (+2.4% on hard toxic examples) help less
compared to expert-written human explanations (+7.2%). Our results showcase the
promise of using free-text explanations to encourage more thoughtful toxicity
moderation.
- Abstract(参考訳): 毒性アノテータやコンテンツモデレーターは、意思決定時に精神的なショートカットにデフォルトとなることが多い。
これは微妙な毒性を見逃し、一見有害だが無害な内容が過度に検出される可能性がある。
我々は,言明の含意する社会的バイアスをフリーテキストで説明し,コンテンツモデレーション設定を強化するためのフレームワークであるbiaxを紹介し,その効果をクラウドソースによる大規模ユーザスタディを通じて探究する。
実際、参加者は、亜毒性(非毒性)コンテンツを正しく識別するための説明からかなり恩恵を受けている。
不完全な機械による説明(強毒性の例では+2.4%)は専門家による説明(+7.2%)に比べて少ない。
以上の結果から,より思慮深い毒性モデレーションを促すために,フリーテキストによる説明を使うことが期待される。
関連論文リスト
- Tracking Patterns in Toxicity and Antisocial Behavior Over User Lifetimes on Large Social Media Platforms [0.2630859234884723]
われわれはRedditとWikipediaの5億件近いコメントで14年間にわたって毒性を分析している。
Reddit上で最も有毒な行動は、最もアクティブなユーザーによって集計され、最も有毒な行動は、最もアクティブでないユーザーによって集計され、Wikipedia上で最も有毒な行動であることがわかった。
論文 参考訳(メタデータ) (2024-07-12T15:45:02Z) - Explainability and Hate Speech: Structured Explanations Make Social Media Moderators Faster [72.84926097773578]
実世界のモデレーターの速度に及ぼす説明の影響について検討する。
我々の実験では、一般的な説明は速度に影響せず、しばしば無視されるが、構造化された説明はモデレーターの意思決定時間を7.4%減少させる。
論文 参考訳(メタデータ) (2024-06-06T14:23:10Z) - Analyzing Toxicity in Deep Conversations: A Reddit Case Study [0.0]
この研究は、公開会話設定における毒性に関するユーザがどのように振る舞うかを理解するために、ツリーベースのアプローチを採用する。
Redditの8つのコミュニティから上位100件の投稿とコメントのセクションを収集し、100万件以上の回答を得た。
有毒なコメントは、その後の有毒なコメントがオンライン会話で生み出される可能性を高める。
論文 参考訳(メタデータ) (2024-04-11T16:10:44Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - News consumption and social media regulations policy [70.31753171707005]
我々は、ニュース消費とコンテンツ規制の間の相互作用を評価するために、反対のモデレーション手法であるTwitterとGabを強制した2つのソーシャルメディアを分析した。
以上の結果から,Twitterが追求するモデレーションの存在は,疑わしいコンテンツを著しく減少させることがわかった。
Gabに対する明確な規制の欠如は、ユーザが両方のタイプのコンテンツを扱う傾向を生じさせ、ディスカウント/エンドレスメントの振る舞いを考慮に入れた疑わしいコンテンツに対してわずかに好みを示す。
論文 参考訳(メタデータ) (2021-06-07T19:26:32Z) - Designing Toxic Content Classification for a Diversity of Perspectives [15.466547856660803]
我々は17,280人の参加者を対象に,有毒なコンテンツを構成するものに対するユーザの期待が,人口動態,信念,個人的経験によってどのように異なるかを調査した。
歴史的に嫌がらせのリスクがあるグループは、Reddit、Twitter、あるいは4chanから無作為なコメントを有害であると警告する傾向にある。
JigsawのパースペクティブAPIのような、現在の一大毒性分類アルゴリズムは、パーソナライズされたモデルチューニングによって、平均86%の精度で改善できることを示す。
論文 参考訳(メタデータ) (2021-06-04T16:45:15Z) - Toxicity Detection: Does Context Really Matter? [22.083682201142242]
私たちは、投稿の有害性に対する認識を増幅または緩和できる状況があることに気付きました。
意外なことに、文脈が毒性分類器の性能を実際に改善する証拠も見つからない。
これは、コンテキストにアノテートされたコメントのより大きなデータセットの必要性を示している。
論文 参考訳(メタデータ) (2020-06-01T15:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。