論文の概要: Toxicity Ahead: Forecasting Conversational Derailment on GitHub
- arxiv url: http://arxiv.org/abs/2512.15031v1
- Date: Wed, 17 Dec 2025 02:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.831217
- Title: Toxicity Ahead: Forecasting Conversational Derailment on GitHub
- Title(参考訳): Toxicity、GitHubで会話の脱線を予測
- Authors: Mia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski,
- Abstract要約: オープンソースソフトウェア(OSS)コミュニティにおける有害な相互作用は、コントリビュータの関与を減らし、プロジェクトの持続可能性を脅かす。
よりスケーラブルなアプローチをサポートするために、GitHubの議論から159個の脱線した有毒スレッドと207個の非有毒スレッドのデータセットをキュレートした。
2段階のプロンプトパイプラインを使用して,GitHub上で会話の脱線を予測する,LLM(Large Language Model)ベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.862809084820304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxic interactions in Open Source Software (OSS) communities reduce contributor engagement and threaten project sustainability. Preventing such toxicity before it emerges requires a clear understanding of how harmful conversations unfold. However, most proactive moderation strategies are manual, requiring significant time and effort from community maintainers. To support more scalable approaches, we curate a dataset of 159 derailed toxic threads and 207 non-toxic threads from GitHub discussions. Our analysis reveals that toxicity can be forecast by tension triggers, sentiment shifts, and specific conversational patterns. We present a novel Large Language Model (LLM)-based framework for predicting conversational derailment on GitHub using a two-step prompting pipeline. First, we generate \textit{Summaries of Conversation Dynamics} (SCDs) via Least-to-Most (LtM) prompting; then we use these summaries to estimate the \textit{likelihood of derailment}. Evaluated on Qwen and Llama models, our LtM strategy achieves F1-scores of 0.901 and 0.852, respectively, at a decision threshold of 0.3, outperforming established NLP baselines on conversation derailment. External validation on a dataset of 308 GitHub issue threads (65 toxic, 243 non-toxic) yields an F1-score up to 0.797. Our findings demonstrate the effectiveness of structured LLM prompting for early detection of conversational derailment in OSS, enabling proactive and explainable moderation.
- Abstract(参考訳): オープンソースソフトウェア(OSS)コミュニティにおける有害な相互作用は、コントリビュータの関与を減らし、プロジェクトの持続可能性を脅かす。
このような毒性が現れる前に予防するには、有害な会話がいかに広がるかを明確に理解する必要がある。
しかし、ほとんどの積極的モデレーション戦略は手動であり、コミュニティメンテナーからかなりの時間と努力を必要とする。
よりスケーラブルなアプローチをサポートするために、GitHubの議論から159個の脱線した有毒スレッドと207個の非有毒スレッドのデータセットをキュレートした。
分析の結果,緊張の引き金や感情の変化,特定の会話パターンによって毒性が予測できることがわかった。
2段階のプロンプトパイプラインを使用して,GitHub上で会話の脱線を予測する,LLM(Large Language Model)ベースのフレームワークを提案する。
まず、LtM(Least-to-Most)のプロンプトで \textit{Summaries of Conversation Dynamics} (SCDs) を生成し、次にこれらのサマリーを用いて、脱線状態のtextit{likelihood of derailment} を推定する。
QwenモデルとLlamaモデルに基づいて,LtM戦略は,それぞれ0.901と0.852のF1スコアを0.3の判定閾値で達成し,既存のNLPベースラインの会話脱線性能を上回った。
GitHubの308のイシュースレッド(65の有毒、243の非有毒)のデータセットに対する外部検証では、F1スコアが最大0.797になる。
本研究は、OSSにおける会話脱線を早期に検出するための構造化LDMの有効性を示し、積極的に説明可能なモデレーションを可能にした。
関連論文リスト
- Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Understanding and Predicting Derailment in Toxic Conversations on GitHub [6.343946534579351]
この研究は、GitHubの有害性につながる会話の脱線を理解し予測することを目的としている。
このデータセットに基づいて,有害な会話や脱線点の特徴を識別する。
本研究では,エスカレーション前に潜在的に有害な会話を自動的に検出し,対処するための能動的モデレーション手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T02:01:37Z) - Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - Exploring ChatGPT for Toxicity Detection in GitHub [5.003898791753481]
しばしば有毒なコメントとして表されるネガティブな会話の頻度は、開発者の幸福と生産性に重大な課題をもたらします。
プロジェクトコミュニケーションにおいてこのような負性性を特定するためには, 自動毒性検出モデルが必要である。
これらのモデルを効果的にトレーニングするには、大規模なソフトウェアエンジニアリング固有の毒性データセットが必要です。
論文 参考訳(メタデータ) (2023-12-20T15:23:00Z) - ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large
Language Models [125.7209927536255]
チャットベースのLLMのためのツール拡張チェーン推論フレームワークChatCoTを提案する。
ChatCoTでは、チャットを通じてより自然な方法でツールを活用するために、マルチターン会話として思考の連鎖(CoT)推論をモデル化します。
提案手法は,チャットベースのLLMのマルチターン会話能力を効果的に活用し,思考連鎖とツール操作を統一的に統合する。
論文 参考訳(メタデータ) (2023-05-23T17:54:33Z) - Conversation Modeling to Predict Derailment [15.45515784064555]
進行中の会話が脱線する可能性があるかどうかを予測する能力は、インターロケータやモデレーターに貴重なリアルタイム洞察を提供する可能性がある。
会話が発達するにつれて動的予測を試みようとする研究もあるが、会話構造や脱線距離といった多元的情報を組み込むことは困難である。
本稿では,発話レベルと会話レベルの情報を組み合わせた階層型トランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:10:45Z) - CIL: Contrastive Instance Learning Framework for Distantly Supervised
Relation Extraction [52.94486705393062]
我々は、典型的なマルチインスタンス学習(MIL)フレームワークを超えて、新しいコントラッシブ・インスタンス学習(CIL)フレームワークを提案する。
具体的には、初期MILをリレーショナルトリプルエンコーダと各インスタンスに対する負のペアに対する制約正のペアとみなす。
提案手法の有効性を実験的に検証し, 提案手法をNYT10, GDS, KBPで比較検討した。
論文 参考訳(メタデータ) (2021-06-21T04:51:59Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。