論文の概要: Analyzing Toxicity in Open Source Software Communications Using Psycholinguistics and Moral Foundations Theory
- arxiv url: http://arxiv.org/abs/2412.13133v1
- Date: Tue, 17 Dec 2024 17:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:24.010076
- Title: Analyzing Toxicity in Open Source Software Communications Using Psycholinguistics and Moral Foundations Theory
- Title(参考訳): 心理言語学と道徳的基礎理論を用いたオープンソースソフトウェアコミュニケーションにおける毒性の分析
- Authors: Ramtin Ehsani, Rezvaneh, Rezapour, Preetha Chatterjee,
- Abstract要約: 本稿では,オープンソースソフトウェア(OSS)における有害通信の自動検出のための機械学習によるアプローチについて検討する。
我々は精神言語学のレキシコンとモラル・ファンデーションズ・理論を利用して、OSSコミュニケーションチャネルの2種類の毒性を分析し、コメントとコードレビューを発行する。
道徳的価値を特徴として使うことは言語的手がかりよりも効果的であり、コードレビューデータ中の有害なインスタンスを67.50%、問題コメントを64.83%特定するF1尺度となる。
- 参考スコア(独自算出の注目度): 3.449872244965508
- License:
- Abstract: Studies have shown that toxic behavior can cause contributors to leave, and hinder newcomers' (especially from underrepresented communities) participation in Open Source Software (OSS) projects. Thus, detection of toxic language plays a crucial role in OSS collaboration and inclusivity. Off-the-shelf toxicity detectors are ineffective when applied to OSS communications, due to the distinct nature of toxicity observed in these channels (e.g., entitlement and arrogance are more frequently observed on GitHub than on Reddit or Twitter). In this paper, we investigate a machine learning-based approach for the automatic detection of toxic communications in OSS. We leverage psycholinguistic lexicons, and Moral Foundations Theory to analyze toxicity in two types of OSS communication channels; issue comments and code reviews. Our evaluation indicates that our approach can achieve a significant performance improvement (up to 7% increase in F1 score) over the existing domain-specific toxicity detector. We found that using moral values as features is more effective than linguistic cues, resulting in 67.50% F1-measure in identifying toxic instances in code review data and 64.83% in issue comments. While the detection accuracy is far from accurate, this improvement demonstrates the potential of integrating moral and psycholinguistic features in toxicity detection models. These findings highlight the importance of context-specific models that consider the unique communication styles within OSS, where interpersonal and value-driven language dynamics differ markedly from general social media platforms. Future work could focus on refining these models to further enhance detection accuracy, possibly by incorporating community-specific norms and conversational context to better capture the nuanced expressions of toxicity in OSS environments.
- Abstract(参考訳): 研究では、有害な振る舞いがコントリビュータの離脱を妨げ、オープンソースソフトウェア(OSS)プロジェクトへの新参者の参加を妨げることが示されている。
このように、有害言語の検出はOSSの協調と傾向において重要な役割を担っている。
オフザシェルフ毒性検知器は、これらのチャネルで観察される毒性の異なる性質のため、OSS通信に適用すると効果が低下する(例えば、権利や軽蔑はRedditやTwitterよりもGitHubで頻繁に見られる)。
本稿では,OSSにおける有害通信の自動検出のための機械学習によるアプローチについて検討する。
我々は精神言語学のレキシコンとモラル・ファンデーションズ・理論を利用して、OSSコミュニケーションチャネルの2種類の毒性を分析し、コメントとコードレビューを発行する。
以上の結果から,本手法は既存のドメイン特異的毒性検出装置よりも高い性能向上(F1スコアの最大7%向上)を達成できることが示唆された。
その結果、コードレビューデータ中の有害なインスタンスを67.50%、問題コメントを64.83%特定できるF1尺度が得られた。
検出精度はそれほど正確ではないが、この改良は毒性検出モデルに道徳的特徴と精神言語学的特徴を統合する可能性を示している。
これらの知見は、対人的および価値駆動型言語力学が一般的なソーシャルメディアプラットフォームと著しく異なるOSS内のユニークなコミュニケーションスタイルを考える文脈特化モデルの重要性を浮き彫りにした。
今後は、コミュニティ固有の規範や会話の文脈を取り入れて、OSS環境における毒性のニュアンス表現をより正確に捉えることで、これらのモデルを洗練して、検出精度をさらに高めることが期待できる。
関連論文リスト
- Exploring ChatGPT for Toxicity Detection in GitHub [5.003898791753481]
しばしば有毒なコメントとして表されるネガティブな会話の頻度は、開発者の幸福と生産性に重大な課題をもたらします。
プロジェクトコミュニケーションにおいてこのような負性性を特定するためには, 自動毒性検出モデルが必要である。
これらのモデルを効果的にトレーニングするには、大規模なソフトウェアエンジニアリング固有の毒性データセットが必要です。
論文 参考訳(メタデータ) (2023-12-20T15:23:00Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in
Real-World User-AI Conversation [43.356758428820626]
ToxicChatは、オープンソースのチャットボットからの実際のユーザクエリに基づく、新しいベンチマークである。
既存の毒性データセットに基づいてトレーニングされたモデルの体系的評価は、ToxicChatのこのユニークなドメインに適用した場合の欠点を示している。
将来的には、ToxicChatは、ユーザとAIインタラクションのための安全で健全な環境を構築するためのさらなる進歩を促進する上で、貴重なリソースになり得る。
論文 参考訳(メタデータ) (2023-10-26T13:35:41Z) - Exploring Moral Principles Exhibited in OSS: A Case Study on GitHub
Heated Issues [5.659436621527968]
GitHubのイシュースレッドで有毒なコミュニケーションを分析して、テキストで示される5種類の道徳的原則を特定し、理解します。
予備的な発見は、道徳原則とOSSコミュニケーションにおける有毒なコメントの関連性を示唆している。
論文 参考訳(メタデータ) (2023-07-28T15:42:10Z) - ToxiSpanSE: An Explainable Toxicity Detection in Code Review Comments [4.949881799107062]
ToxiSpanSEは、ソフトウェアエンジニアリング(SE)ドメインで有害なスパンを検出する最初のツールである。
我々のモデルは、有害なクラストークンに対する0.88ドルのF1ドル、0.87の精度、および0.93のリコールで最高のスコアを得た。
論文 参考訳(メタデータ) (2023-07-07T04:55:11Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - RECAST: Enabling User Recourse and Interpretability of Toxicity
Detection Models with Interactive Visualization [16.35961310670002]
本稿では,有害モデルの予測を可視化するインタラクティブなオープンソースWebツールであるRECASTについて紹介する。
その結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。
このことは、毒性検出モデルがどのように機能し、機能するか、そしてそれらがオンライン談話の将来に与える影響について、議論を開いている。
論文 参考訳(メタデータ) (2021-02-08T18:37:50Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。