論文の概要: Real-Time Toxicity Filtering for Open-Source Code Reviews
- arxiv url: http://arxiv.org/abs/2604.08886v1
- Date: Fri, 10 Apr 2026 02:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.649768
- Title: Real-Time Toxicity Filtering for Open-Source Code Reviews
- Title(参考訳): オープンソースコードレビューのためのリアルタイム毒性フィルタリング
- Authors: Md Awsaf Alam Anindya, Showvik Biswas, Anindya Iqbal, Jaydeb Sarker, Amiangshu Bosu,
- Abstract要約: ToxiShieldは、有害なコードレビューを特定し、デトックスするリアルタイムブラウザエクステンションである。
このフレームワークは3つのモジュールで構成されている。毒性の識別、推論された多クラス分類、コードレビューのデトックス化である。
- 参考スコア(独自算出の注目度): 1.9500886760872191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxic interactions in open-source software development harm community collaboration. To combat this, we propose ToxiShield, a realtime browser extension that identifies and detoxifies toxic code reviews. The framework comprises three modules: toxicity identification, reasoned multiclass classification, and code review detoxification. Our fine-tuned BERT-based binary classifier achieved a 97% F1-score on 38,761 code review texts. For multiclass classification, Claude 3.5 Sonnet with prompt engineering achieved a 39% MCC and 42% F1 on 1,200 samples. Finally, our fine-tuned Llama 3.2 detoxification model reached 95.27% style transfer accuracy, 97.03% fluency, 67.07% content preservation, and an 84% J-score. Validation with 10 software developers suggests ToxiShield effectively fosters a more inclusive open-source environment.
- Abstract(参考訳): オープンソースソフトウェア開発における有害な相互作用はコミュニティのコラボレーションを損なう。
これに対抗するために、有害なコードレビューを特定し、デトックスするリアルタイムブラウザエクステンションであるToxiShieldを提案する。
このフレームワークは3つのモジュールで構成されている。毒性の識別、推論された多クラス分類、コードレビューのデトックス化である。
細調整されたBERTベースのバイナリ分類器は38,761のコードレビューテキストに対して97%のF1スコアを達成した。
多クラス分類では、クロード3.5ソンネットは1200サンプルに対して39%のMCCと42%のF1を達成した。
最後に、微調整したLlama 3.2デトキシ化モデルは95.27%のスタイル転送精度、97.03%の流速、67.07%のコンテンツ保存、84%のJスコアに達した。
10人のソフトウェア開発者による検証は、ToxiShieldがより包括的なオープンソース環境を効果的に育むことを示唆している。
関連論文リスト
- Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study [51.717224133855886]
サードパーティのスキルはLLMエージェントを強力な能力で拡張するが、特権のある環境では機密情報を扱うことが多い。
静的解析,サンドボックステスト,手動検査を用いて17,022のスキル(SkillsMPで170,226からサンプリング)を分析した。
我々は,1,708の課題で520の脆弱なスキルを識別し,10の漏洩パターン(事故4件,反対6件)の分類を導出する。
論文 参考訳(メタデータ) (2026-04-03T14:50:16Z) - CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability [50.57373283154859]
CVE-Factoryは、脆弱性タスクを自動変換するエキスパートレベルの品質を実現するための、最初のマルチエージェントフレームワークである。
最新の現実的な脆弱性についても評価され、66.2%の成功が証明されている。
コードセキュリティにおけるエージェントタスクの大規模スケーリングとして,1000以上の実行可能なトレーニング環境を合成する。
論文 参考訳(メタデータ) (2026-02-03T02:27:16Z) - Projecting Out the Malice: A Global Subspace Approach to LLM Detoxification [73.77171973106567]
大規模言語モデル(LLM)は例外的な性能を示すが、有害なコンテンツを生成する固有のリスクを生じさせる。
従来の手法では、パラメータの根底にある有害領域を排除できず、敵の攻撃に弱いモデルを残している。
我々は,このグローバルな部分空間をFFNパラメータから識別・排除することで毒性を緩和する軽量な方法であるGLOSSを提案する。
論文 参考訳(メタデータ) (2026-01-09T09:34:53Z) - Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - The Landscape of Toxicity: An Empirical Investigation of Toxicity on GitHub [3.0586855806896054]
ProfanityはGitHubで最も頻度の高い毒性であり、続いてトロルと侮辱が続く。
企業スポンサーのプロジェクトは毒性が低いが、ゲームプロジェクトはゲーム以外のプロジェクトの7倍の毒性がある。
過去に有毒なコメントを書いたOSSコントリビュータは、このような行動を繰り返す可能性が著しく高い。
論文 参考訳(メタデータ) (2025-02-12T09:24:59Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - ToxiSpanSE: An Explainable Toxicity Detection in Code Review Comments [4.949881799107062]
ToxiSpanSEは、ソフトウェアエンジニアリング(SE)ドメインで有害なスパンを検出する最初のツールである。
我々のモデルは、有害なクラストークンに対する0.88ドルのF1ドル、0.87の精度、および0.93のリコールで最高のスコアを得た。
論文 参考訳(メタデータ) (2023-07-07T04:55:11Z) - Interpretable Multi Labeled Bengali Toxic Comments Classification using
Deep Learning [0.0]
我々は16,073のインスタンスからなる手動ラベル付きデータセットを作成し,そのうち8,488がToxicである。
有毒なコメントは、ヴァルガー、ヘイト、宗教、脅威、トロル、侮辱の6つのカテゴリーのうちの1つ以上のものに対応する。
提案手法では,提案手法をLIME(Local Interpretable Model-Agnostic Explanations)フレームワークを用いた。
論文 参考訳(メタデータ) (2023-04-08T19:28:26Z) - Automated Identification of Toxic Code Reviews: How Far Can We Go? [7.655225472610752]
ToxiCRは、コードレビューインタラクションのための教師付き学習ベースの毒性識別ツールである。
ToxiCRは、我々のデータセット上の既存の毒性検知器を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-26T04:27:39Z) - Lone Pine at SemEval-2021 Task 5: Fine-Grained Detection of Hate Speech
Using BERToxic [2.4815579733050153]
本稿では, 有害スパン検出問題に対するアプローチについて述べる。
BERToxicは、事前に訓練されたBERTモデルを微調整して、与えられたテキスト中の有毒なテキストスパンを見つけるシステムである。
我々のシステムは、提供されたベースラインを著しく上回り、f1-score 0.683を達成し、91チーム中17位にlone pineを配置した。
論文 参考訳(メタデータ) (2021-04-08T04:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。