論文の概要: ToxiSpanSE: An Explainable Toxicity Detection in Code Review Comments
- arxiv url: http://arxiv.org/abs/2307.03386v1
- Date: Fri, 7 Jul 2023 04:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 18:16:04.477355
- Title: ToxiSpanSE: An Explainable Toxicity Detection in Code Review Comments
- Title(参考訳): ToxiSpanSE: コードレビューコメントで説明可能な毒性検出
- Authors: Jaydeb Saker and Sayma Sultana and Steven R. Wilson and Amiangshu Bosu
- Abstract要約: ToxiSpanSEは、ソフトウェアエンジニアリング(SE)ドメインで有害なスパンを検出する最初のツールである。
我々のモデルは、有害なクラストークンに対する0.88ドルのF1ドル、0.87の精度、および0.93のリコールで最高のスコアを得た。
- 参考スコア(独自算出の注目度): 4.949881799107062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: The existence of toxic conversations in open-source platforms can
degrade relationships among software developers and may negatively impact
software product quality. To help mitigate this, some initial work has been
done to detect toxic comments in the Software Engineering (SE) domain. Aims:
Since automatically classifying an entire text as toxic or non-toxic does not
help human moderators to understand the specific reason(s) for toxicity, we
worked to develop an explainable toxicity detector for the SE domain. Method:
Our explainable toxicity detector can detect specific spans of toxic content
from SE texts, which can help human moderators by automatically highlighting
those spans. This toxic span detection model, ToxiSpanSE, is trained with the
19,651 code review (CR) comments with labeled toxic spans. Our annotators
labeled the toxic spans within 3,757 toxic CR samples. We explored several
types of models, including one lexicon-based approach and five different
transformer-based encoders. Results: After an extensive evaluation of all
models, we found that our fine-tuned RoBERTa model achieved the best score with
0.88 $F1$, 0.87 precision, and 0.93 recall for toxic class tokens, providing an
explainable toxicity classifier for the SE domain. Conclusion: Since ToxiSpanSE
is the first tool to detect toxic spans in the SE domain, this tool will pave a
path to combat toxicity in the SE community.
- Abstract(参考訳): 背景: オープンソースプラットフォームにおける有害な会話の存在は、ソフトウェア開発者間の関係を悪化させ、ソフトウェア製品の品質に悪影響を及ぼす可能性がある。
これを軽減するために、Software Engineering (SE)ドメインで有毒なコメントを検出するために、いくつかの初期作業が行われた。
Aims: テキスト全体を毒性または非毒性と自動的に分類することは、人間モデレーターが毒性の特定の理由を理解する助けにならないため、我々はSEドメインのための説明可能な毒性検知器の開発に取り組んだ。
方法:本研究では,SEテキストから有害な内容の特定のスパンを検知し,そのスパンを自動的にハイライトすることでヒトのモデレーターを支援する。
この有毒スパン検出モデルであるToxiSpanSEは、ラベル付き有毒スパンによる19,651コードレビュー(CR)コメントでトレーニングされている。
3,757個の有毒CR試料に有毒なスパンをラベル付けした。
1つのレキシコンベースのアプローチと5つの異なるトランスフォーマベースのエンコーダを含む、いくつかのモデルを調査した。
結果: すべてのモデルについて広範囲に評価した結果, 我々の微調整されたRoBERTaモデルは, 有害なクラストークンに対する0.88$F1$, 0.87精度, 0.93リコールで最高のスコアを得た。
結論: ToxiSpanSEはSEドメインで有害なスパンを検出する最初のツールであるため、このツールはSEコミュニティで毒性と戦うための道を開くことになる。
関連論文リスト
- Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Automated Identification of Toxic Code Reviews: How Far Can We Go? [7.655225472610752]
ToxiCRは、コードレビューインタラクションのための教師付き学習ベースの毒性識別ツールである。
ToxiCRは、我々のデータセット上の既存の毒性検知器を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-26T04:27:39Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Lone Pine at SemEval-2021 Task 5: Fine-Grained Detection of Hate Speech
Using BERToxic [2.4815579733050153]
本稿では, 有害スパン検出問題に対するアプローチについて述べる。
BERToxicは、事前に訓練されたBERTモデルを微調整して、与えられたテキスト中の有毒なテキストスパンを見つけるシステムである。
我々のシステムは、提供されたベースラインを著しく上回り、f1-score 0.683を達成し、91チーム中17位にlone pineを配置した。
論文 参考訳(メタデータ) (2021-04-08T04:46:14Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。