論文の概要: ToxiShield: Promoting Inclusive Developer Communication through Real-Time Toxicity Filtering
- arxiv url: http://arxiv.org/abs/2604.14408v1
- Date: Wed, 15 Apr 2026 20:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.604622
- Title: ToxiShield: Promoting Inclusive Developer Communication through Real-Time Toxicity Filtering
- Title(参考訳): ToxiShield: リアルタイムな毒性フィルタリングによる包括的開発者コミュニケーションの促進
- Authors: MD Awsaf Alam Anindya, Showvik Biswas, Anindya Iqbal, Jaydeb Sarker, Amiangshu Bosu,
- Abstract要約: ToxiShieldは、3つのモジュールを使って構築されたGitHubプルリクエスト用のブラウザエクステンションである。
Toxicity Filter -- テキストが有害かどうかを特定するために、コミュニケーションコーチ -- は、ジャストインタイムのきめ細かい毒性分類を促進する。
私たちは、各モジュールに最適な選択を特定するために、複数のディープラーニングと大規模言語モデルを訓練し、評価しました。
- 参考スコア(独自算出の注目度): 1.9500886760872191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Toxic interactions during code reviews can undermine teamwork and hinder productivity in software engineering (SE) teams. While prior studies explore toxicity detection and empirical investigation, they lack real-time detoxification tools to support the SE community. To address this gap, we present ToxiShield, a browser extension for GitHub pull requests that is built using three modules: i) Toxicity Filter -- to identify whether a text is toxic, ii) Communication coach -- to facilitate just-in-time fine-grained toxicity categorization with explanations, and iii) The Reframer -- that generates a revised, constructive alternative of a toxic text. For each module, we trained and evaluated multiple deep learning and Large Language Models (LLMs) to identify the best choice. A BERT-based binary detection model, trained on 38,761 code review samples, achieves 98% accuracy and an F1-score of 97% and is the selected one for the Toxicity Filter module. For the Communication Coach, prompt-tuned Claude 3.5 Sonnet achieved the best performance with 39% MCC and 42% F1 in multiclass toxicity classification with detailed reasoning. For Reframer, we evaluated five LLMs using a fine-tuning strategy on a dataset of 10,120 code review comments. The fine-tuned Llama 3.2 model achieves 95.27% style transfer accuracy, 97.03% fluency, 67.07% content preservation, and an 84% J-score. We further validated ToxiShield through a human evaluation using the Technology Acceptance Model with 10 participants, confirming its perceived usefulness and ease of adoption. ToxiShield sets a benchmark for advancing constructive communication in software engineering, driving inclusivity and healthier collaboration in open-source communities.
- Abstract(参考訳): コードレビュー中の有害な相互作用は、チームワークを損なう可能性があり、ソフトウェアエンジニアリング(SE)チームの生産性を損なう可能性がある。
以前の研究では毒性の検出と経験的調査が検討されていたが、SEコミュニティを支援するためのリアルタイムな解毒ツールが欠如していた。
このギャップに対処するため、3つのモジュールを使って構築されたGitHubプルリクエスト用のブラウザエクステンションであるToxiShieldを紹介します。
一 毒性フィルター...テキストが有害かどうかを識別する
二 コミュニケーションコーチ...説明書による極度のきめ細かい毒性の分類を促進すること。
三 有毒なテキストの改訂された建設的な代替物を生成するリクララ
各モジュールに対して、最適な選択を特定するために、複数のディープラーニングと大規模言語モデル(LLM)をトレーニングし、評価しました。
38,761のコードレビューサンプルに基づいてトレーニングされたBERTベースのバイナリ検出モデルでは、98%の精度とF1スコアが97%に達し、Toxicity Filterモジュールに選ばれた。
コミュニケーションコーチにとって、クロード3.5ソンネットは39%のMCCと42%のF1で、詳細な推論で最高の成績を収めた。
Reframerでは,10,120のコードレビューコメントのデータセットに対して,微調整戦略を用いて5つのLCMを評価した。
微調整されたLlama 3.2モデルは95.27%のスタイル転送精度、97.03%の流線型、67.07%のコンテンツ保存、84%のJスコアを達成する。
また,ToxiShieldを10名の参加者によるTechnology Acceptance Modelを用いた人的評価によって検証し,その有用性と導入の容易性を確認した。
ToxiShieldは、ソフトウェアエンジニアリングにおける構築的コミュニケーションの進歩と、オープンソースコミュニティにおけるインクリビティとより健全なコラボレーションを促進するためのベンチマークを設定している。
関連論文リスト
- Real-Time Toxicity Filtering for Open-Source Code Reviews [1.9500886760872191]
ToxiShieldは、有害なコードレビューを特定し、デトックスするリアルタイムブラウザエクステンションである。
このフレームワークは3つのモジュールで構成されている。毒性の識別、推論された多クラス分類、コードレビューのデトックス化である。
論文 参考訳(メタデータ) (2026-04-10T02:49:09Z) - <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs [60.169913160819]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。
実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。
根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文 参考訳(メタデータ) (2025-09-10T07:48:24Z) - Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - You Only Prompt Once: On the Capabilities of Prompt Learning on Large
Language Models to Tackle Toxic Content [13.600755614321493]
大規模言語モデル(LLM)を用いて,オンライン上での有害コンテンツ問題に対処する方法について検討する。
1)毒性分類,2)毒性スパン検出,3)非毒性化の3つの課題に焦点をあてる。
その結果, 素早い学習は, 毒性分類タスクにおいて, ベースラインに比べて約10%改善することがわかった。
論文 参考訳(メタデータ) (2023-08-10T14:14:13Z) - ToxiSpanSE: An Explainable Toxicity Detection in Code Review Comments [4.949881799107062]
ToxiSpanSEは、ソフトウェアエンジニアリング(SE)ドメインで有害なスパンを検出する最初のツールである。
我々のモデルは、有害なクラストークンに対する0.88ドルのF1ドル、0.87の精度、および0.93のリコールで最高のスコアを得た。
論文 参考訳(メタデータ) (2023-07-07T04:55:11Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Automated Identification of Toxic Code Reviews: How Far Can We Go? [7.655225472610752]
ToxiCRは、コードレビューインタラクションのための教師付き学習ベースの毒性識別ツールである。
ToxiCRは、我々のデータセット上の既存の毒性検知器を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-26T04:27:39Z) - Lone Pine at SemEval-2021 Task 5: Fine-Grained Detection of Hate Speech
Using BERToxic [2.4815579733050153]
本稿では, 有害スパン検出問題に対するアプローチについて述べる。
BERToxicは、事前に訓練されたBERTモデルを微調整して、与えられたテキスト中の有毒なテキストスパンを見つけるシステムである。
我々のシステムは、提供されたベースラインを著しく上回り、f1-score 0.683を達成し、91チーム中17位にlone pineを配置した。
論文 参考訳(メタデータ) (2021-04-08T04:46:14Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。