論文の概要: RECAST: Enabling User Recourse and Interpretability of Toxicity
Detection Models with Interactive Visualization
- arxiv url: http://arxiv.org/abs/2102.04427v2
- Date: Wed, 10 Feb 2021 14:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 12:11:43.394711
- Title: RECAST: Enabling User Recourse and Interpretability of Toxicity
Detection Models with Interactive Visualization
- Title(参考訳): RECAST:インタラクティブ・ビジュアライゼーションによる毒性検出モデルのユーザ・リコースと解釈性の評価
- Authors: Austin P Wright, Omar Shaikh, Haekyu Park, Will Epperson, Muhammed
Ahmed, Stephane Pinel, Duen Horng Chau, Diyi Yang
- Abstract要約: 本稿では,有害モデルの予測を可視化するインタラクティブなオープンソースWebツールであるRECASTについて紹介する。
その結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。
このことは、毒性検出モデルがどのように機能し、機能するか、そしてそれらがオンライン談話の将来に与える影響について、議論を開いている。
- 参考スコア(独自算出の注目度): 16.35961310670002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread use of toxic language online, platforms are increasingly
using automated systems that leverage advances in natural language processing
to automatically flag and remove toxic comments. However, most automated
systems -- when detecting and moderating toxic language -- do not provide
feedback to their users, let alone provide an avenue of recourse for these
users to make actionable changes. We present our work, RECAST, an interactive,
open-sourced web tool for visualizing these models' toxic predictions, while
providing alternative suggestions for flagged toxic language. Our work also
provides users with a new path of recourse when using these automated
moderation tools. RECAST highlights text responsible for classifying toxicity,
and allows users to interactively substitute potentially toxic phrases with
neutral alternatives. We examined the effect of RECAST via two large-scale user
evaluations, and found that RECAST was highly effective at helping users reduce
toxicity as detected through the model. Users also gained a stronger
understanding of the underlying toxicity criterion used by black-box models,
enabling transparency and recourse. In addition, we found that when users focus
on optimizing language for these models instead of their own judgement (which
is the implied incentive and goal of deploying automated models), these models
cease to be effective classifiers of toxicity compared to human annotations.
This opens a discussion for how toxicity detection models work and should work,
and their effect on the future of online discourse.
- Abstract(参考訳): オンラインの有毒な言語の普及に伴い、プラットフォームは自然言語処理の進歩を利用して有毒なコメントを自動的にフラグ付けおよび削除する自動化システムを使用しています。
しかし、ほとんどの自動化システム -- 有毒な言語を検出してモデレートする場合 -- は、ユーザにフィードバックを提供しません。
我々はこれらのモデルの有害な予測を可視化するインタラクティブなオープンソースWebツールであるRECASTを紹介し、フラグ付き有毒な言語に対する代替提案を提供する。
当社の作業は,これらの自動モデレーションツールを使用するユーザに対して,新たなリコースのパスも提供します。
RECASTは毒性の分類に責任のあるテキストを強調し、ユーザーがインタラクティブに中立的な代替語で潜在的に有毒なフレーズを置き換えることができます。
2つの大規模ユーザ評価によるRECASTの効果を検討した結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。
ユーザーはブラックボックスモデルが使用する毒性基準をより深く理解し、透明性とリアクションを可能にした。
さらに、ユーザーが独自の判断ではなく、これらのモデルのための言語を最適化することに焦点を合わせると(自動モデルを展開するための暗黙のインセンティブと目標である)、これらのモデルは人間のアノテーションと比較して毒性の効果的な分類器になりません。
これにより、毒性検出モデルがどのように機能し、機能すべきか、およびオンライン談話の将来への影響についての議論が開かれます。
関連論文リスト
- Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。
行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文 参考訳(メタデータ) (2024-06-24T16:31:11Z) - Recourse for reclamation: Chatting with generative language models [2.877217169371665]
生成言語モデルにアルゴリズム・リコースの概念を拡張します。
我々は,毒性フィルタリングのしきい値を動的に設定することで,希望する予測を実現する新しいメカニズムをユーザに提供する。
提案手法の可能性を実証したパイロット実験を行った。
論文 参考訳(メタデータ) (2024-03-21T15:14:25Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in
Real-World User-AI Conversation [43.356758428820626]
ToxicChatは、オープンソースのチャットボットからの実際のユーザクエリに基づく、新しいベンチマークである。
既存の毒性データセットに基づいてトレーニングされたモデルの体系的評価は、ToxicChatのこのユニークなドメインに適用した場合の欠点を示している。
将来的には、ToxicChatは、ユーザとAIインタラクションのための安全で健全な環境を構築するためのさらなる進歩を促進する上で、貴重なリソースになり得る。
論文 参考訳(メタデータ) (2023-10-26T13:35:41Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - RECAST: Interactive Auditing of Automatic Toxicity Detection Models [39.621867230707814]
本稿では, 予測のための説明を可視化し, 検出された有毒な音声に対する代替語提供を行うことにより, 有害な検出モデルを調べるインタラクティブツールであるRECASTについて述べる。
論文 参考訳(メタデータ) (2020-01-07T00:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。