論文の概要: Watching the AI Watchdogs: A Fairness and Robustness Analysis of AI Safety Moderation Classifiers
- arxiv url: http://arxiv.org/abs/2501.13302v1
- Date: Thu, 23 Jan 2025 01:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:30.586569
- Title: Watching the AI Watchdogs: A Fairness and Robustness Analysis of AI Safety Moderation Classifiers
- Title(参考訳): AIウォッチドッグを見る:AI安全モデレーション分類器の公正性とロバスト性分析
- Authors: Akshit Achara, Anshuman Chhabra,
- Abstract要約: 安全モデレーション(ASM)分類器は、ソーシャルメディアプラットフォーム上のコンテンツを適度に扱うように設計されている。
これらの分類器が少数民族のユーザーに属するコンテンツを不当に分類しないことを確実にすることが重要である。
そこで本研究では,広く使用されている4つのオープンソースASM分類器の公平性とロバスト性について検討する。
- 参考スコア(独自算出の注目度): 5.35599092568615
- License:
- Abstract: AI Safety Moderation (ASM) classifiers are designed to moderate content on social media platforms and to serve as guardrails that prevent Large Language Models (LLMs) from being fine-tuned on unsafe inputs. Owing to their potential for disparate impact, it is crucial to ensure that these classifiers: (1) do not unfairly classify content belonging to users from minority groups as unsafe compared to those from majority groups and (2) that their behavior remains robust and consistent across similar inputs. In this work, we thus examine the fairness and robustness of four widely-used, closed-source ASM classifiers: OpenAI Moderation API, Perspective API, Google Cloud Natural Language (GCNL) API, and Clarifai API. We assess fairness using metrics such as demographic parity and conditional statistical parity, comparing their performance against ASM models and a fair-only baseline. Additionally, we analyze robustness by testing the classifiers' sensitivity to small and natural input perturbations. Our findings reveal potential fairness and robustness gaps, highlighting the need to mitigate these issues in future versions of these models.
- Abstract(参考訳): AI Safety Moderation(ASM)分類器は、ソーシャルメディアプラットフォーム上のコンテンツを適度に調整し、Large Language Models(LLM)が安全でない入力で微調整されるのを防ぐためのガードレールとして機能するよう設計されている。
異なる影響の可能性を秘めているため、(1)少数派のユーザーに属するコンテンツを、多数派のコンテンツに比べて安全でないものとして不公平に分類しないこと、(2)それらの動作が、類似の入力に対して堅牢で一貫性のあるままであることを保証することが重要である。
そこで本研究では,OpenAI Moderation API, Perspective API, Google Cloud Natural Language (GCNL) API, Clarifai APIの4つの広く使用されているクローズドソースASM分類器の公平性と堅牢性について検討する。
本研究では,ASMモデルとフェアリミテッドベースラインとを比較して,人口統計パリティや条件統計パリティなどの指標を用いてフェアネスを評価する。
さらに,小・自然の入力摂動に対する分類器の感度をテストすることにより,ロバスト性を解析する。
以上の結果から,これらのモデルの今後のバージョンにおいて,問題の緩和の必要性が浮かび上がっている。
関連論文リスト
- Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble [2.1450827490014865]
クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。
モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。
提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。
論文 参考訳(メタデータ) (2024-09-05T14:35:35Z) - Representation Magnitude has a Liability to Privacy Vulnerability [3.301728339780329]
本稿では,会員のプライバシー漏洩を軽減するためのプラグインモデルレベルのソリューションを提案する。
我々のアプローチは、一般化性を維持しながらモデルのプライバシの脆弱性を改善する。
論文 参考訳(メタデータ) (2024-07-23T04:13:52Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Characterizing Data Point Vulnerability via Average-Case Robustness [29.881355412540557]
対向ロバスト性は標準的なフレームワークであり、二眼レフを通して予測のロバスト性を見る。
我々は、局所的な点数を測定する平均ケースロバストネスと呼ばれる、ロバストネスの相補的な枠組みを考察する。
従来のディープラーニングモデルでは,推定値が正確かつ効率的であることを実証的に示す。
論文 参考訳(メタデータ) (2023-07-26T01:10:29Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - User-Centered Security in Natural Language Processing [0.7106986689736825]
自然言語処理(NLP)におけるユーザ中心のセキュリティの枠組みの提案
NLP内の2つのセキュリティドメインに重点を置いている。
論文 参考訳(メタデータ) (2023-01-10T22:34:19Z) - Measuring Fairness Under Unawareness of Sensitive Attributes: A
Quantification-Based Approach [131.20444904674494]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
定量化手法は, フェアネスと無意識の問題に対処するのに特に適していることを示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。