論文の概要: BotArtist: Generic approach for bot detection in Twitter via semi-automatic machine learning pipeline
- arxiv url: http://arxiv.org/abs/2306.00037v4
- Date: Mon, 22 Jul 2024 11:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:56:27.487616
- Title: BotArtist: Generic approach for bot detection in Twitter via semi-automatic machine learning pipeline
- Title(参考訳): BotArtist: 半自動機械学習パイプラインによるTwitterのボット検出のためのジェネリックアプローチ
- Authors: Alexander Shevtsov, Despoina Antonakaki, Ioannis Lamprou, Polyvios Pratikakis, Sotiris Ioannidis,
- Abstract要約: Twitterは、ボットや偽アカウントのターゲットとなり、偽情報や操作の拡散につながった。
本稿では,機械学習モデル開発に関連する課題に対処するために,セミオートマチック機械学習パイプライン(SAMLP)を提案する。
ユーザプロファイル機能に基づいたボット検出モデルBotArtistを開発した。
- 参考スコア(独自算出の注目度): 47.61306219245444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Twitter, as one of the most popular social networks, provides a platform for communication and online discourse. Unfortunately, it has also become a target for bots and fake accounts, resulting in the spread of false information and manipulation. This paper introduces a semi-automatic machine learning pipeline (SAMLP) designed to address the challenges correlated with machine learning model development. Through this pipeline, we develop a comprehensive bot detection model named BotArtist, based on user profile features. SAMLP leverages nine distinct publicly available datasets to train the BotArtist model. To assess BotArtist's performance against current state-of-the-art solutions, we select 35 existing Twitter bot detection methods, each utilizing a diverse range of features. Our comparative evaluation of BotArtist and these existing methods, conducted across nine public datasets under standardized conditions, reveals that the proposed model outperforms existing solutions by almost 10%, in terms of F1-score, achieving an average score of 83.19 and 68.5 over specific and general approaches respectively. As a result of this research, we provide a dataset of the extracted features combined with BotArtist predictions over the 10.929.533 Twitter user profiles, collected via Twitter API during the 2022 Russo-Ukrainian War, over a 16-month period. This dataset was created in collaboration with [Shevtsov et al., 2022a] where the original authors share anonymized tweets on the discussion of the Russo-Ukrainian war with a total amount of 127.275.386 tweets. The combination of the existing text dataset and the provided labeled bot and human profiles will allow for the future development of a more advanced bot detection large language model in the post-Twitter API era.
- Abstract(参考訳): Twitterは、最も人気のあるソーシャルネットワークの一つであり、コミュニケーションとオンライン談話のためのプラットフォームを提供している。
残念ながら、ボットや偽アカウントの標的にもなっており、偽の情報や操作が広まっている。
本稿では,機械学習モデル開発に関連する課題に対処するために,セミオートマチック機械学習パイプライン(SAMLP)を提案する。
このパイプラインを通じて,ユーザプロファイル機能に基づいたボット検出モデルBotArtistを開発した。
SAMLPは、BotArtistモデルをトレーニングするために、9つの異なる公開データセットを活用する。
BotArtistの現在の最先端ソリューションに対するパフォーマンスを評価するため、我々は35の既存のTwitterボット検出方法を選択し、それぞれ多様な機能を活用している。
BotArtistとこれらの既存手法を比較して、標準化された条件下で9つの公開データセットで実施された結果、提案モデルはF1スコアにおいて既存のソリューションよりも約10%優れており、それぞれ特定のアプローチと一般的なアプローチに対して平均スコア83.19と68.5を達成していることが明らかとなった。
この研究の結果、2022年のロシア・ウクライナ戦争中にTwitter API経由で収集された10.929.533のTwitterユーザプロファイルに対して、BotArtist予測と組み合わせて抽出された機能のデータセットを提供する。
このデータセットは[Shevtsov et al , 2022a]と共同で作成され、原作者はロシア・ウクライナ戦争に関する議論で匿名化されたツイートを合計127.275.386ツイートで共有した。
既存のテキストデータセットと提供されたラベル付きボットと人間のプロファイルを組み合わせることで、Twitter後API時代において、より高度なボット検出大型言語モデルの開発が可能になる。
関連論文リスト
- My Brother Helps Me: Node Injection Based Adversarial Attack on Social Bot Detection [69.99192868521564]
Twitterのようなソーシャルプラットフォームは、数多くの不正なユーザーから包囲されている。
ソーシャルネットワークの構造のため、ほとんどの手法は攻撃を受けやすいグラフニューラルネットワーク(GNN)に基づいている。
本稿では,ボット検出モデルを欺いたノードインジェクションに基づく逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T03:09:48Z) - Context-Based Tweet Engagement Prediction [0.0]
この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:36:57Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.359825215347655]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。
35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。
さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文 参考訳(メタデータ) (2022-06-09T15:23:37Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - BotSpot: Deep Learning Classification of Bot Accounts within Twitter [2.099922236065961]
Twitterのオープン化機能により、プログラムはTwitter APIを通じてTwitterアカウントを自動生成および制御できる。
ボットとして知られるこれらのアカウントは、ツイート、リツイート、フォロー、フォロー解除、他のアカウントへのダイレクトメッセージなどのアクションを自動的に実行する。
我々は,多層パーセプトロンニューラルネットワークとボットアカウントの9つの特徴を備えた,ディープラーニングを用いた新しいボット検出手法を提案する。
論文 参考訳(メタデータ) (2021-09-08T15:17:10Z) - A ground-truth dataset and classification model for detecting bots in
GitHub issue and PR comments [70.1864008701113]
ボットはGithubリポジトリで、分散ソフトウェア開発プロセスの一部である反復的なアクティビティを自動化するために使用されている。
本稿では,5000のGithubアカウントのプルリクエストとコメント発行に関する,高い相互契約を伴う手動分析に基づいて,基幹トラスデータセットを提案する。
ボットを検出する自動分類モデルを提案し,各アカウントの空のコメント数と空でないコメント数,コメントパターンの数,コメントパターン内のコメント間の不平等を主特徴とする。
論文 参考訳(メタデータ) (2020-10-07T09:30:52Z) - Detection of Novel Social Bots by Ensembles of Specialized Classifiers [60.63582690037839]
悪意ある俳優は、社会ボットとして知られるアルゴリズムによって部分的に制御される不正なソーシャルメディアアカウントを作成し、誤情報を広め、オンラインでの議論を扇動する。
異なるタイプのボットが、異なる行動特徴によって特徴づけられることを示す。
本稿では,ボットのクラスごとに専門的な分類器を訓練し,それらの決定を最大ルールで組み合わせる,教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T22:59:59Z) - Twitter Bot Detection Using Bidirectional Long Short-term Memory Neural
Networks and Word Embeddings [6.09170287691728]
本稿では,Twitterボットを人間アカウントと区別するために,単語埋め込みを用いたリカレントニューラルネットワークを開発した。
実験により,既存の最先端ボット検出システムと比較して,本手法が競争力を発揮することが示された。
論文 参考訳(メタデータ) (2020-02-03T17:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。