論文の概要: Incivility in Open Source Projects: A Comprehensive Annotated Dataset of
Locked GitHub Issue Threads
- arxiv url: http://arxiv.org/abs/2402.04183v1
- Date: Tue, 6 Feb 2024 17:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:39:02.121350
- Title: Incivility in Open Source Projects: A Comprehensive Annotated Dataset of
Locked GitHub Issue Threads
- Title(参考訳): オープンソースプロジェクトのインキュビティ: ロックされたgithubイシュースレッドの包括的な注釈付きデータセット
- Authors: Ramtin Ehsani, Mia Mohammad Imran, Robert Zita, Kostadin Damevski,
Preetha Chatterjee
- Abstract要約: 本稿では、404のロック付きGitHubイシューディスカッションスレッドと5961の個別コメントのキュレートデータセットを提案する。
Tone Bearing Discussion Features (TBDFs) を用いた様々なイシビリティカテゴリーのコメントを注釈した。
その結果,Btter frustration, Impatience, Mocking が最も多い TBDF が得られた。
- 参考スコア(独自算出の注目度): 7.573469540668844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the dynamic landscape of open source software (OSS) development,
understanding and addressing incivility within issue discussions is crucial for
fostering healthy and productive collaborations. This paper presents a curated
dataset of 404 locked GitHub issue discussion threads and 5961 individual
comments, collected from 213 OSS projects. We annotated the comments with
various categories of incivility using Tone Bearing Discussion Features
(TBDFs), and, for each issue thread, we annotated the triggers, targets, and
consequences of incivility. We observed that Bitter frustration, Impatience,
and Mocking are the most prevalent TBDFs exhibited in our dataset. The most
common triggers, targets, and consequences of incivility include Failed use of
tool/code or error messages, People, and Discontinued further discussion,
respectively. This dataset can serve as a valuable resource for analyzing
incivility in OSS and improving automated tools to detect and mitigate such
behavior.
- Abstract(参考訳): オープン・ソース・ソフトウェア(oss)開発のダイナミック・ランドスケープでは、議論の中のインキビティの理解と対処が健全で生産的なコラボレーションを促進する上で不可欠である。
本稿では、213のOSSプロジェクトから収集された404のロックされたGitHubイシューディスカッションスレッドと5961の個別コメントのキュレートデータセットを提案する。
我々は, toor bearing discussion features (tbdfs) を用いて様々なカテゴリーのインキビティを付したコメントを付記し, それぞれのイシュースレッドに対してトリガ, ターゲット, およびインキビティの結果を付記した。
当社のデータセットでは,苦いフラストレーションや不満足,モッキングが最も一般的なtbdfであることが分かりました。
インキビティの最も一般的なトリガ、ターゲット、結果には、ツール/コードやエラーメッセージの使用の失敗、人々、そしてさらなる議論の中止が含まれる。
このデータセットは、OSSのincivilityを分析し、そのような振る舞いを検出し緩和するための自動化ツールを改善するための貴重なリソースとして機能する。
関連論文リスト
- Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable
Responses Created Through Human-Machine Collaboration [75.62448812759968]
このデータセットは、韓国の大規模データセットで、49kの機密性があり、42kの許容範囲と46kの非許容応答がある。
データセットは、実際のニュースの見出しに基づいて、HyperCLOVAを人道的に活用して構築された。
論文 参考訳(メタデータ) (2023-05-28T11:51:20Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - Multifaceted Hierarchical Report Identification for Non-Functional Bugs
in Deep Learning Frameworks [5.255197438986675]
ディープラーニング(DL)フレームワークにおける非機能バグ関連レポートを自動的に識別するエンドツーエンドツールであるMHNurfを提案する。
MHNurfの中核は、3つの未解決課題に取り組むMHAN(Multifaceted Hierarchical Attention Network)である。
MHNurfはコンテンツ、コメント、コードの組み合わせでベストを尽くしている。
論文 参考訳(メタデータ) (2022-10-04T18:49:37Z) - Incivility Detection in Open Source Code Review and Issue Discussions [11.920861669801832]
オープンソースコードレビューとイシューに関する議論の動機は、否定的な結果をもたらす可能性がある。
我々は6つの古典的機械学習モデルとBERTを比較して、インシヴィティを検出する。
BERTは従来の機械学習モデルより優れており、最高のF1スコアは0.95である。
論文 参考訳(メタデータ) (2022-06-27T16:26:18Z) - Looking for related discussions on GitHub Discussions [18.688096673390586]
GitHub Discussionsは、プラットフォーム上にホストされているユーザとコミュニティのメンバー間の共同ディスカッションを促進するための、ネイティブフォーラムである。
GitHub DiscussionsはPCQAフォーラムに似ているが、このような環境が直面しているのと同じような課題に直面している。
重複した投稿は、同じコンテンツ(そして正確なコピーかもしれない)を持っているが、ほぼ重複して、同様のトピックや情報を共有する。
本稿では,Sentence-BERT事前学習モデル,RD-Detectorに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-23T20:41:33Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - hBert + BiasCorp -- Fighting Racism on the Web [58.768804813646334]
これはfox news、breitbartnews、youtubeの3つの特定のソースから139,090のコメントとニュースを含むデータセットです。
本研究では、hBERT を新しい Hopfield Layer を用いて、予め訓練された BERT モデルの特定の層を修正する。
開発者がwebアプリケーションでトレーニングされたモデルを利用できるようにするため、javascriptライブラリとchrome拡張アプリケーションもリリースしています。
論文 参考訳(メタデータ) (2021-04-06T02:17:20Z) - GitHub Discussions: An Exploratory Study of Early Adoption [23.844242004415406]
私たちは2020年1月から7月にかけて、GitHubの議論を早期に取り入れた混合メソッド調査を実施しました。
1) エラー,予期せぬ動作,コードレビューが議論の代表的なカテゴリであること,(2) プロジェクトメンバの関与と議論頻度との間には肯定的な関係があること,(3) 開発者はGitHubの議論が有用であると考えているが,議論と問題の間のトピック重複の問題に直面している。
私たちの発見は、GitHub Discussionsを使用するためのデータインフォームドガイダンスへの第一歩であり、この新たなコミュニケーションチャネルに関する今後の研究の道を開くものです。
論文 参考訳(メタデータ) (2021-02-10T02:49:03Z) - StackOverflow vs Kaggle: A Study of Developer Discussions About Data
Science [0.0]
本稿では,StackOverflowとKaggleの197836ポストの特性について実験を行った。
主な発見は、StackOverflowで最も多いトピックに関するものだ。
どちらのコミュニティでも、DSに関する議論は劇的なペースで増えている。
アンサンブルアルゴリズムはKaggleで最も言及されているML/DLアルゴリズムであるが、StackOverflowではほとんど議論されていない。
論文 参考訳(メタデータ) (2020-06-06T06:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。