論文の概要: Exploring ChatGPT for Toxicity Detection in GitHub
- arxiv url: http://arxiv.org/abs/2312.13105v1
- Date: Wed, 20 Dec 2023 15:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:18:40.711003
- Title: Exploring ChatGPT for Toxicity Detection in GitHub
- Title(参考訳): GitHubにおける毒性検出のためのChatGPTの探索
- Authors: Shyamal Mishra, Preetha Chatterjee
- Abstract要約: しばしば有毒なコメントとして表されるネガティブな会話の頻度は、開発者の幸福と生産性に重大な課題をもたらします。
プロジェクトコミュニケーションにおいてこのような負性性を特定するためには, 自動毒性検出モデルが必要である。
これらのモデルを効果的にトレーニングするには、大規模なソフトウェアエンジニアリング固有の毒性データセットが必要です。
- 参考スコア(独自算出の注目度): 5.003898791753481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fostering a collaborative and inclusive environment is crucial for the
sustained progress of open source development. However, the prevalence of
negative discourse, often manifested as toxic comments, poses significant
challenges to developer well-being and productivity. To identify such
negativity in project communications, especially within large projects,
automated toxicity detection models are necessary. To train these models
effectively, we need large software engineering-specific toxicity datasets.
However, such datasets are limited in availability and often exhibit imbalance
(e.g., only 6 in 1000 GitHub issues are toxic), posing challenges for training
effective toxicity detection models. To address this problem, we explore a
zero-shot LLM (ChatGPT) that is pre-trained on massive datasets but without
being fine-tuned specifically for the task of detecting toxicity in
software-related text. Our preliminary evaluation indicates that ChatGPT shows
promise in detecting toxicity in GitHub, and warrants further investigation. We
experimented with various prompts, including those designed for justifying
model outputs, thereby enhancing model interpretability and paving the way for
potential integration of ChatGPT-enabled toxicity detection into developer
communication channels.
- Abstract(参考訳): オープンソース開発の持続的な進歩には、協調的で包括的な環境の確立が不可欠です。
しかし、しばしば有毒なコメントとして表される否定的な言説の流行は、開発者の幸福と生産性に重大な課題をもたらす。
プロジェクトコミュニケーション,特に大規模プロジェクトにおいて,このような負性性を特定するためには,自動毒性検出モデルが必要である。
これらのモデルを効果的にトレーニングするには、大規模なソフトウェアエンジニアリング固有の毒性データセットが必要です。
しかし、そのようなデータセットは可用性に制限があり、しばしば不均衡を示す(例えば、GitHubの1000件中6件だけが有毒である)。
この問題に対処するため,我々は,ソフトウェア関連テキストの有害性を検出するタスクを具体的に調整することなく,大量のデータセットで事前トレーニングされたゼロショットllm(chatgpt)を探索する。
予備的な評価は、ChatGPTがGitHubの毒性を検出することを約束し、さらなる調査を保証していることを示している。
モデル出力の正当化,モデルの解釈性の向上,chatgpt対応毒性検出の開発者コミュニケーションチャネルへの統合への道を開くなど,さまざまなプロンプトを実験した。
関連論文リスト
- Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in
Real-World User-AI Conversation [43.356758428820626]
ToxicChatは、オープンソースのチャットボットからの実際のユーザクエリに基づく、新しいベンチマークである。
既存の毒性データセットに基づいてトレーニングされたモデルの体系的評価は、ToxicChatのこのユニークなドメインに適用した場合の欠点を示している。
将来的には、ToxicChatは、ユーザとAIインタラクションのための安全で健全な環境を構築するためのさらなる進歩を促進する上で、貴重なリソースになり得る。
論文 参考訳(メタデータ) (2023-10-26T13:35:41Z) - Exploring Moral Principles Exhibited in OSS: A Case Study on GitHub
Heated Issues [5.659436621527968]
GitHubのイシュースレッドで有毒なコミュニケーションを分析して、テキストで示される5種類の道徳的原則を特定し、理解します。
予備的な発見は、道徳原則とOSSコミュニケーションにおける有毒なコメントの関連性を示唆している。
論文 参考訳(メタデータ) (2023-07-28T15:42:10Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Automated Identification of Toxic Code Reviews: How Far Can We Go? [7.655225472610752]
ToxiCRは、コードレビューインタラクションのための教師付き学習ベースの毒性識別ツールである。
ToxiCRは、我々のデータセット上の既存の毒性検知器を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-26T04:27:39Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for
Detecting Toxic Spans [2.4737119633827174]
近年,ソーシャルメディアの普及により,オンラインプラットフォーム上での有害コンテンツや攻撃コンテンツの発生が増加している。
ソーシャルメディアプラットフォームは自動検出手法の開発に取り組んでおり、この攻撃的コンテンツの混乱に対処するために人間のモデレーターを使用している。
論文 参考訳(メタデータ) (2021-04-09T22:52:26Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - RECAST: Interactive Auditing of Automatic Toxicity Detection Models [39.621867230707814]
本稿では, 予測のための説明を可視化し, 検出された有毒な音声に対する代替語提供を行うことにより, 有害な検出モデルを調べるインタラクティブツールであるRECASTについて述べる。
論文 参考訳(メタデータ) (2020-01-07T00:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。