論文の概要: Critical Perspectives: A Benchmark Revealing Pitfalls in PerspectiveAPI
- arxiv url: http://arxiv.org/abs/2301.01874v1
- Date: Thu, 5 Jan 2023 02:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:43:19.800145
- Title: Critical Perspectives: A Benchmark Revealing Pitfalls in PerspectiveAPI
- Title(参考訳): 批判的視点:spectiveAPIの落とし穴を調査するベンチマーク
- Authors: Lorena Piedras, Lucas Rosenblatt, Julia Wilkins
- Abstract要約: テキストの“有害性”を評価することを約束するツールであるJigsawのPERSPECTIVEに重点を置いています。
本稿では,新たなベンチマークであるSelected Adversarial Semantics(SASS)を提案する。
PERSPECTIVEは、多くの毒性カテゴリーにまたがって、厄介な欠点を呈している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting "toxic" language in internet content is a pressing social and
technical challenge. In this work, we focus on PERSPECTIVE from Jigsaw, a
state-of-the-art tool that promises to score the "toxicity" of text, with a
recent model update that claims impressive results (Lees et al., 2022). We seek
to challenge certain normative claims about toxic language by proposing a new
benchmark, Selected Adversarial SemanticS, or SASS. We evaluate PERSPECTIVE on
SASS, and compare to low-effort alternatives, like zero-shot and few-shot GPT-3
prompt models, in binary classification settings. We find that PERSPECTIVE
exhibits troubling shortcomings across a number of our toxicity categories.
SASS provides a new tool for evaluating performance on previously undetected
toxic language that avoids common normative pitfalls. Our work leads us to
emphasize the importance of questioning assumptions made by tools already in
deployment for toxicity detection in order to anticipate and prevent disparate
harms.
- Abstract(参考訳): インターネットコンテンツにおける「有害」言語の検出は、社会的および技術的な課題である。
本稿では,テキストの「毒性」を判定する最先端ツールであるjigsawの視点に焦点を当て,最近のモデルアップデートでは印象的な結果が得られた(lees et al., 2022)。
我々は,新たなベンチマークであるSelected Adversarial SemanticS(SASS)を提案し,有害言語に関する規範的主張に挑戦する。
sassの視点を評価し、二分分類設定においてゼロショットや少数ショットgpt-3プロンプトモデルのような低エフォートな代替モデルと比較する。
PERSPECTIVEは、多くの毒性カテゴリーで問題となる欠点を呈している。
SASSは、これまで検出されていなかった有害な言語のパフォーマンスを評価するための新しいツールを提供する。
私たちの研究は、有害性検出のためにすでにデプロイされているツールによる仮定に疑問を呈することの重要性を強調します。
関連論文リスト
- Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文 参考訳(メタデータ) (2024-04-09T22:56:05Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - ToxiSpanSE: An Explainable Toxicity Detection in Code Review Comments [4.949881799107062]
ToxiSpanSEは、ソフトウェアエンジニアリング(SE)ドメインで有害なスパンを検出する最初のツールである。
我々のモデルは、有害なクラストークンに対する0.88ドルのF1ドル、0.87の精度、および0.93のリコールで最高のスコアを得た。
論文 参考訳(メタデータ) (2023-07-07T04:55:11Z) - Characteristics of Harmful Text: Towards Rigorous Benchmarking of
Language Models [32.960462266615096]
大規模な言語モデルは、多くのアプリケーションを動かす人間のようなテキストを生成する。
近年の文献や現実世界の観測により、これらのモデルが有害、偏見があり、非現実的、その他の有害な言語を生成できることが証明されている。
我々は、新しいベンチマークを設計する際、明らかな考慮に値する有害なテキストを特徴づける6つの方法を概説する。
論文 参考訳(メタデータ) (2022-06-16T17:28:01Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for
Detecting Toxic Spans [2.4737119633827174]
近年,ソーシャルメディアの普及により,オンラインプラットフォーム上での有害コンテンツや攻撃コンテンツの発生が増加している。
ソーシャルメディアプラットフォームは自動検出手法の開発に取り組んでおり、この攻撃的コンテンツの混乱に対処するために人間のモデレーターを使用している。
論文 参考訳(メタデータ) (2021-04-09T22:52:26Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。