論文の概要: The Landscape of Toxicity: An Empirical Investigation of Toxicity on GitHub
- arxiv url: http://arxiv.org/abs/2502.08238v1
- Date: Wed, 12 Feb 2025 09:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:34.061838
- Title: The Landscape of Toxicity: An Empirical Investigation of Toxicity on GitHub
- Title(参考訳): Toxicityのランドスケープ: GitHub上でのToxicityに関する実証調査
- Authors: Jaydeb Sarker, Asif Kamal Turzo, Amiangshu Bosu,
- Abstract要約: ProfanityはGitHubで最も頻度の高い毒性であり、続いてトロルと侮辱が続く。
企業スポンサーのプロジェクトは毒性が低いが、ゲームプロジェクトはゲーム以外のプロジェクトの7倍の毒性がある。
過去に有毒なコメントを書いたOSSコントリビュータは、このような行動を繰り返す可能性が著しく高い。
- 参考スコア(独自算出の注目度): 3.0586855806896054
- License:
- Abstract: Toxicity on GitHub can severely impact Open Source Software (OSS) development communities. To mitigate such behavior, a better understanding of its nature and how various measurable characteristics of project contexts and participants are associated with its prevalence is necessary. To achieve this goal, we conducted a large-scale mixed-method empirical study of 2,828 GitHub-based OSS projects randomly selected based on a stratified sampling strategy. Using ToxiCR, an SE domain-specific toxicity detector, we automatically classified each comment as toxic or non-toxic. Additionally, we manually analyzed a random sample of 600 comments to validate ToxiCR's performance and gain insights into the nature of toxicity within our dataset. The results of our study suggest that profanity is the most frequent toxicity on GitHub, followed by trolling and insults. While a project's popularity is positively associated with the prevalence of toxicity, its issue resolution rate has the opposite association. Corporate-sponsored projects are less toxic, but gaming projects are seven times more toxic than non-gaming ones. OSS contributors who have authored toxic comments in the past are significantly more likely to repeat such behavior. Moreover, such individuals are more likely to become targets of toxic texts.
- Abstract(参考訳): GitHub上のToxicityは、オープンソースソフトウェア(OSS)開発コミュニティに大きな影響を与える可能性がある。
このような行動を緩和するためには、その性質をよりよく理解し、プロジェクトコンテキストや参加者の様々な測定可能な特性が、その頻度とどのように関連しているかを理解する必要がある。
この目的を達成するために、階層化されたサンプリング戦略に基づいてランダムに選択された2,828のGitHubベースのOSSプロジェクトについて、大規模な混合メソッド実験を行った。
また,SEドメイン特異的毒性検出装置であるToxiCRを用いて,各コメントを毒性または非毒性と自動的に分類した。
さらに、ToxiCRのパフォーマンスを検証するために600のコメントのランダムなサンプルを手動で分析し、データセット内の毒性の性質に関する洞察を得ました。
以上の結果から,GitHubで最も頻度の高い有害性は嫌悪であり,続いてトロルや侮辱が続くことが示唆された。
プロジェクトの人気は毒性の頻度と肯定的に結びついているが、その課題解決率は反対の関係にある。
企業スポンサーのプロジェクトは毒性が低いが、ゲームプロジェクトはゲーム以外のプロジェクトの7倍の毒性がある。
過去に有毒なコメントを書いたOSSコントリビュータは、このような行動を繰り返す可能性が著しく高い。
さらに、これらの個体は毒性のあるテキストの標的になりがちである。
関連論文リスト
- Analyzing Toxicity in Open Source Software Communications Using Psycholinguistics and Moral Foundations Theory [5.03553492616371]
本稿では,オープンソースソフトウェア(OSS)における有害通信の自動検出のための機械学習によるアプローチについて検討する。
我々は精神言語学のレキシコンとモラル・ファンデーションズ・理論を利用して、OSSコミュニケーションチャネルの2種類の毒性を分析し、コメントとコードレビューを発行する。
道徳的価値を特徴として使うことは言語的手がかりよりも効果的であり、コードレビューデータ中の有害なインスタンスを67.50%、問題コメントを64.83%特定するF1尺度となる。
論文 参考訳(メタデータ) (2024-12-17T17:52:00Z) - Exploring ChatGPT for Toxicity Detection in GitHub [5.003898791753481]
しばしば有毒なコメントとして表されるネガティブな会話の頻度は、開発者の幸福と生産性に重大な課題をもたらします。
プロジェクトコミュニケーションにおいてこのような負性性を特定するためには, 自動毒性検出モデルが必要である。
これらのモデルを効果的にトレーニングするには、大規模なソフトウェアエンジニアリング固有の毒性データセットが必要です。
論文 参考訳(メタデータ) (2023-12-20T15:23:00Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Exploring Moral Principles Exhibited in OSS: A Case Study on GitHub
Heated Issues [5.659436621527968]
GitHubのイシュースレッドで有毒なコミュニケーションを分析して、テキストで示される5種類の道徳的原則を特定し、理解します。
予備的な発見は、道徳原則とOSSコミュニケーションにおける有毒なコメントの関連性を示唆している。
論文 参考訳(メタデータ) (2023-07-28T15:42:10Z) - ToxiSpanSE: An Explainable Toxicity Detection in Code Review Comments [4.949881799107062]
ToxiSpanSEは、ソフトウェアエンジニアリング(SE)ドメインで有害なスパンを検出する最初のツールである。
我々のモデルは、有害なクラストークンに対する0.88ドルのF1ドル、0.87の精度、および0.93のリコールで最高のスコアを得た。
論文 参考訳(メタデータ) (2023-07-07T04:55:11Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。