論文の概要: A ground-truth dataset and classification model for detecting bots in
GitHub issue and PR comments
- arxiv url: http://arxiv.org/abs/2010.03303v2
- Date: Tue, 19 Jan 2021 14:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:13:42.415578
- Title: A ground-truth dataset and classification model for detecting bots in
GitHub issue and PR comments
- Title(参考訳): GitHubイシューとPRコメントにおけるボット検出のための地中真実データセットと分類モデル
- Authors: Mehdi Golzadeh, Alexandre Decan, Damien Legay and Tom Mens
- Abstract要約: ボットはGithubリポジトリで、分散ソフトウェア開発プロセスの一部である反復的なアクティビティを自動化するために使用されている。
本稿では,5000のGithubアカウントのプルリクエストとコメント発行に関する,高い相互契約を伴う手動分析に基づいて,基幹トラスデータセットを提案する。
ボットを検出する自動分類モデルを提案し,各アカウントの空のコメント数と空でないコメント数,コメントパターンの数,コメントパターン内のコメント間の不平等を主特徴とする。
- 参考スコア(独自算出の注目度): 70.1864008701113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bots are frequently used in Github repositories to automate repetitive
activities that are part of the distributed software development process. They
communicate with human actors through comments. While detecting their presence
is important for many reasons, no large and representative ground-truth dataset
is available, nor are classification models to detect and validate bots on the
basis of such a dataset. This paper proposes a ground-truth dataset, based on a
manual analysis with high interrater agreement, of pull request and issue
comments in 5,000 distinct Github accounts of which 527 have been identified as
bots. Using this dataset we propose an automated classification model to detect
bots, taking as main features the number of empty and non-empty comments of
each account, the number of comment patterns, and the inequality between
comments within comment patterns. We obtained a very high weighted average
precision, recall and F1-score of 0.98 on a test set containing 40% of the
data. We integrated the classification model into an open source command-line
tool to allow practitioners to detect which accounts in a given Github
repository actually correspond to bots.
- Abstract(参考訳): ボットはGithubリポジトリでよく使われ、分散ソフトウェア開発プロセスの一部である反復的なアクティビティを自動化する。
彼らはコメントを通じて人間俳優とコミュニケーションをとる。
それらの存在を検出することは、多くの理由から重要であるが、大規模かつ代表的な地上データセットは利用できず、そのようなデータセットに基づいてボットを検出し検証する分類モデルも存在しない。
本稿では,5000件のGithubアカウントで527件がボットとして特定されているプルリクエストとイシューコメントの,高い相互契約による手動分析に基づいて,基幹トラスデータセットを提案する。
このデータセットを用いて、ボットを検出するための自動分類モデルを提案し、各アカウントの空および空でないコメントの数、コメントパターンの数、コメントパターン内のコメント間の不平等を主な特徴とする。
40%のデータを含むテストセットにおいて,非常に高い重み付き平均精度,リコール,f1-score を 0.98 と算出した。
分類モデルをオープンソースのコマンドラインツールに統合し、Githubリポジトリ内のどのアカウントが実際にボットに対応しているかを実践者が検出できるようにしました。
関連論文リスト
- Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - BotHawk: An Approach for Bots Detection in Open Source Software Projects [4.59229477803039]
本研究の目的は,オープンソースのソフトウェアプロジェクトにおけるボットの振る舞いを調査し,最大限の精度でボットアカウントを特定することである。
オープンソースのソフトウェアプロジェクトでは、17の機能を5次元で分析することで、4種類のボットアカウントを特定しました。
私たちのチームはBotHawkという,オープンソースのソフトウェアプロジェクトのボットを検出するための,極めて効果的なモデルを開発しました。
論文 参考訳(メタデータ) (2023-07-25T10:15:38Z) - BotArtist: Generic approach for bot detection in Twitter via semi-automatic machine learning pipeline [47.61306219245444]
Twitterは、ボットや偽アカウントのターゲットとなり、偽情報や操作の拡散につながった。
本稿では,機械学習モデル開発に関連する課題に対処するために,セミオートマチック機械学習パイプライン(SAMLP)を提案する。
ユーザプロファイル機能に基づいたボット検出モデルBotArtistを開発した。
論文 参考訳(メタデータ) (2023-05-31T09:12:35Z) - BotShape: A Novel Social Bots Detection Approach via Behavioral Patterns [4.386183132284449]
実世界のデータセットに基づいて、生のイベントログから行動シーケンスを構築する。
ボットと真のユーザの違いと、ボットアカウント間の類似パターンを観察する。
本稿では,行動の順序や特徴を自動的に把握するソーシャルボット検出システムBotShapeを提案する。
論文 参考訳(メタデータ) (2023-03-17T19:03:06Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Simplistic Collection and Labeling Practices Limit the Utility of
Benchmark Datasets for Twitter Bot Detection [3.8428576920007083]
ツールの高度化よりも,データセットの収集やラベル付けの制限によって高いパフォーマンスがもたらされることを示す。
この結果は,サンプリングおよびラベル付け手順における透明性と,研究における潜在的なバイアスの両方に重要な影響を及ぼす。
論文 参考訳(メタデータ) (2023-01-17T17:05:55Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Detection of Novel Social Bots by Ensembles of Specialized Classifiers [60.63582690037839]
悪意ある俳優は、社会ボットとして知られるアルゴリズムによって部分的に制御される不正なソーシャルメディアアカウントを作成し、誤情報を広め、オンラインでの議論を扇動する。
異なるタイプのボットが、異なる行動特徴によって特徴づけられることを示す。
本稿では,ボットのクラスごとに専門的な分類器を訓練し,それらの決定を最大ルールで組み合わせる,教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T22:59:59Z) - Detecting and Characterizing Bots that Commit Code [16.10540443996897]
著者名,コミットメッセージ,コミットによって修正されたファイル,オムミットに関連するプロジェクトを用いて,ボットを検出するための体系的なアプローチを提案する。
私たちは、発見した461のボット(全員が1000以上のコミットを持っている)と13,762,430のコミットに関する詳細な情報を含む、共有可能なデータセットをコンパイルしました。
論文 参考訳(メタデータ) (2020-03-02T21:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。