論文の概要: Watching the Watchers: A Comparative Fairness Audit of Cloud-based Content Moderation Services
- arxiv url: http://arxiv.org/abs/2406.14154v1
- Date: Thu, 20 Jun 2024 09:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:21:16.594688
- Title: Watching the Watchers: A Comparative Fairness Audit of Cloud-based Content Moderation Services
- Title(参考訳): 監視者を見る - クラウドベースのコンテンツモデレーションサービスの比較公正監査
- Authors: David Hartmann, Amin Oueslati, Dimitri Staufer,
- Abstract要約: 本研究では,サードパーティによる監査を通じて,主要なクラウドベースのコンテンツモデレーションサービス4つを体系的に評価する。
ブラックボックス監査手法と4つのベンチマークデータセットを用いて、明示的かつ暗黙的なヘイトスピーチ検出における性能を測定する。
我々の分析では、すべてのサービスが暗黙のヘイトスピーチを検出するのに苦労していることがわかりました。
女性のような一部のグループに対する偏見はほとんど修正されたものの、LGBTQ+やPoCのような他のグループに対する偏見は残されている。
- 参考スコア(独自算出の注目度): 1.3654846342364306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online platforms face the challenge of moderating an ever-increasing volume of content, including harmful hate speech. In the absence of clear legal definitions and a lack of transparency regarding the role of algorithms in shaping decisions on content moderation, there is a critical need for external accountability. Our study contributes to filling this gap by systematically evaluating four leading cloud-based content moderation services through a third-party audit, highlighting issues such as biases against minorities and vulnerable groups that may arise through over-reliance on these services. Using a black-box audit approach and four benchmark data sets, we measure performance in explicit and implicit hate speech detection as well as counterfactual fairness through perturbation sensitivity analysis and present disparities in performance for certain target identity groups and data sets. Our analysis reveals that all services had difficulties detecting implicit hate speech, which relies on more subtle and codified messages. Moreover, our results point to the need to remove group-specific bias. It seems that biases towards some groups, such as Women, have been mostly rectified, while biases towards other groups, such as LGBTQ+ and PoC remain.
- Abstract(参考訳): オンラインプラットフォームは、有害なヘイトスピーチを含むコンテンツの増加を抑えるという課題に直面している。
明確な法的定義の欠如と、コンテンツモデレーションの意思決定におけるアルゴリズムの役割に関する透明性の欠如により、外部の説明責任が不可欠である。
このギャップを埋めるために、サードパーティの監査を通じて、クラウドベースの主要なコンテンツモデレーションサービス4つを体系的に評価し、マイノリティに対する偏見や、これらのサービスへの過度な依存によって生じる可能性のある脆弱なグループといった問題を強調した。
ブラックボックス監査手法と4つのベンチマークデータセットを用いて、暗黙的かつ暗黙的なヘイトスピーチ検出と、摂動感度分析による反ファクトフェアネスの測定を行い、特定のターゲットIDグループとデータセットのパフォーマンスの相違を示す。
我々の分析では、すべてのサービスが暗黙のヘイトスピーチを検出するのに苦労していることがわかりました。
さらに,本研究の結果から,グループ固有の偏見を取り除く必要性が示唆された。
女性のような一部のグループに対する偏見はほとんど修正されたものの、LGBTQ+やPoCのような他のグループに対する偏見は残されている。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Overview of PerpectiveArg2024: The First Shared Task on Perspective Argument Retrieval [56.66761232081188]
本稿では,社会における少数派・多数派を代表する年齢,性別,政治的態度など,人口・社会文化(社会)の多様性を包括する新しいデータセットを提案する。
パースペクティビズムを取り入れる上での重大な課題は、特に社会的なプロファイルを明示的に提供せずに、議論のテキストのみに基づくパーソナライズを目指す場合である。
パーソナライズと分極の低減を図るため, パーソナライズを最適化するためには, パーソナライズされた論証検索をブートストラップするが, さらなる研究が不可欠である。
論文 参考訳(メタデータ) (2024-07-29T03:14:57Z) - Voice Anonymization for All -- Bias Evaluation of the Voice Privacy
Challenge Baseline System [0.48342038441006807]
本研究では,ボイスプライバシチャレンジの文脈における音声匿名化システムのバイアスについて検討する。
我々は、性別と方言に基づいて、話者サブグループ間のパフォーマンス格差を評価するために、新しいベンチマークデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-27T13:26:49Z) - On the Challenges of Building Datasets for Hate Speech Detection [0.0]
我々はまず,データ中心のレンズを用いてヘイトスピーチ検出を取り巻く問題を分析する。
次に、データ生成パイプラインを7つの広範囲にわたってカプセル化する、包括的なフレームワークの概要を示します。
論文 参考訳(メタデータ) (2023-09-06T11:15:47Z) - Algorithmic Censoring in Dynamic Learning Systems [6.2952076725399975]
検閲を形式化し、その発生方法を示し、検出の難しさを強調します。
我々は、検閲に対する保護 - 規則とランダムな探索 - を考える。
結果として得られたテクニックにより、検閲されたグループの例がトレーニングデータに入力され、モデルを修正できる。
論文 参考訳(メタデータ) (2023-05-15T21:42:22Z) - Having your Privacy Cake and Eating it Too: Platform-supported Auditing
of Social Media Algorithms for Public Interest [70.02478301291264]
ソーシャルメディアプラットフォームは、情報や機会へのアクセスをキュレートするので、公衆の言論を形成する上で重要な役割を果たす。
これまでの研究では、これらのアルゴリズムが偏見や差別的な結果をもたらすことを示すためにブラックボックス法が用いられてきた。
本稿では,提案法の目標を満たすプラットフォーム支援型監査手法を提案する。
論文 参考訳(メタデータ) (2022-07-18T17:32:35Z) - Joint Multisided Exposure Fairness for Recommendation [76.75990595228666]
本稿では,消費者と生産者の両面から共同で問題をモデル化する,露出公正度尺度のファミリを定式化する。
具体的には、双方の利害関係者に対するグループ属性について、個別のユーザや項目を超えて、より体系的なバイアスを推奨するフェアネスの懸念を識別し緩和する。
論文 参考訳(メタデータ) (2022-04-29T19:13:23Z) - Are Your Reviewers Being Treated Equally? Discovering Subgroup
Structures to Improve Fairness in Spam Detection [13.26226951002133]
本稿では,スパム検出のための新しいサブグループ構造の定義,近似,利用の課題に対処する。
まず、レビューグラフ内のサブグループ構造を同定し、グループ内の離散精度を導出する。
3つの大規模なYelpレビューデータセットのベースラインに対する総合的な比較では、サブグループのメンバシップを識別し、グループフェアネスに活用できることが示されている。
論文 参考訳(メタデータ) (2022-04-24T02:19:22Z) - Demographic-Reliant Algorithmic Fairness: Characterizing the Risks of
Demographic Data Collection in the Pursuit of Fairness [0.0]
我々は、アルゴリズムの公正性を実現するために、人口統計に関するより多くのデータを集めることを検討する。
これらの技術は、データガバナンスとシステム抑圧に関するより広範な疑問を、いかに無視するかを示す。
論文 参考訳(メタデータ) (2022-04-18T04:50:09Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Measuring Fairness Under Unawareness of Sensitive Attributes: A
Quantification-Based Approach [131.20444904674494]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
定量化手法は, フェアネスと無意識の問題に対処するのに特に適していることを示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。