論文の概要: BotArtist: Twitter bot detection Machine Learning model based on Twitter
suspension
- arxiv url: http://arxiv.org/abs/2306.00037v2
- Date: Fri, 2 Jun 2023 11:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 11:23:37.993520
- Title: BotArtist: Twitter bot detection Machine Learning model based on Twitter
suspension
- Title(参考訳): botartist: twitterのサスペンションに基づくtwitterボット検出機械学習モデル
- Authors: Alexander Shevtsov, Despoina Antonakaki, Ioannis Lamprou, Polyvios
Pratikakis, Sotiris Ioannidis
- Abstract要約: われわれは、最近のロシアとウクライナの戦争に関する900万人のユーザーから生まれた、Twitter上の難解で多言語的なソーシャル談話のデータセットを集めている。
我々は最先端のXGBoostモデルを用いて,ボット検出のための新しいMLモデルを構築した。
Botometerと比較して、我々の手法は、2つの実ケースシナリオデータセットよりも平均11%高いROC-AUCスコアを達成する。
- 参考スコア(独自算出の注目度): 68.713984286035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Twitter as one of the most popular social networks, offers a means for
communication and online discourse, which unfortunately has been the target of
bots and fake accounts, leading to the manipulation and spreading of false
information. Towards this end, we gather a challenging, multilingual dataset of
social discourse on Twitter, originating from 9M users regarding the recent
Russo-Ukrainian war, in order to detect the bot accounts and the conversation
involving them. We collect the ground truth for our dataset through the Twitter
API suspended accounts collection, containing approximately 343K of bot
accounts and 8M of normal users. Additionally, we use a dataset provided by
Botometer-V3 with 1,777 Varol, 483 German accounts, and 1,321 US accounts.
Besides the publicly available datasets, we also manage to collect 2
independent datasets around popular discussion topics of the 2022 energy crisis
and the 2022 conspiracy discussions. Both of the datasets were labeled
according to the Twitter suspension mechanism. We build a novel ML model for
bot detection using the state-of-the-art XGBoost model. We combine the model
with a high volume of labeled tweets according to the Twitter suspension
mechanism ground truth. This requires a limited set of profile features
allowing labeling of the dataset in different time periods from the collection,
as it is independent of the Twitter API. In comparison with Botometer our
methodology achieves an average 11% higher ROC-AUC score over two real-case
scenario datasets.
- Abstract(参考訳): Twitterは最も人気のあるソーシャルネットワークの1つで、コミュニケーションとオンライン会話のための手段を提供しているが、残念ながらボットや偽アカウントのターゲットであり、偽情報の操作と拡散につながっている。
この目的に向けて、我々は、最近のロシア・ウクライナ戦争に関する900万人のユーザーから生まれた、Twitter上での難解で多言語的なソーシャル談話データセットを収集し、ボットアカウントとそれらに関わる会話を検出する。
Twitter APIの停止アカウントコレクションには,約343Kのボットアカウントと8Mの一般ユーザが含まれています。
さらに、Botometer-V3が提供するデータセットには、1,777のVarol、483のドイツアカウント、1,321の米国アカウントがあります。
公開データセットの他に、2022年のエネルギー危機と2022年の陰謀に関する一般的な議論に関する2つの独立したデータセットも収集しています。
どちらのデータセットも、twitterのサスペンションメカニズムに従ってラベル付けされた。
我々は最先端のXGBoostモデルを用いたボット検出のための新しいMLモデルを構築した。
Twitterのサスペンションメカニズムの真実に則って、このモデルを大量のラベル付きツイートと組み合わせています。
これは、Twitter APIとは独立しているため、コレクションから異なる期間でデータセットのラベル付けを可能にする、限定的なプロファイル機能を必要とする。
ボットメーターと比較すると,本手法は2つの実例のシナリオデータセットよりも平均11%高いroc-aucスコアが得られる。
関連論文リスト
- My Brother Helps Me: Node Injection Based Adversarial Attack on Social Bot Detection [69.99192868521564]
Twitterのようなソーシャルプラットフォームは、数多くの不正なユーザーから包囲されている。
ソーシャルネットワークの構造のため、ほとんどの手法は攻撃を受けやすいグラフニューラルネットワーク(GNN)に基づいている。
本稿では,ボット検出モデルを欺いたノードインジェクションに基づく逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T03:09:48Z) - Context-Based Tweet Engagement Prediction [0.0]
この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:36:57Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.359825215347655]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。
35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。
さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文 参考訳(メタデータ) (2022-06-09T15:23:37Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - BotSpot: Deep Learning Classification of Bot Accounts within Twitter [2.099922236065961]
Twitterのオープン化機能により、プログラムはTwitter APIを通じてTwitterアカウントを自動生成および制御できる。
ボットとして知られるこれらのアカウントは、ツイート、リツイート、フォロー、フォロー解除、他のアカウントへのダイレクトメッセージなどのアクションを自動的に実行する。
我々は,多層パーセプトロンニューラルネットワークとボットアカウントの9つの特徴を備えた,ディープラーニングを用いた新しいボット検出手法を提案する。
論文 参考訳(メタデータ) (2021-09-08T15:17:10Z) - A ground-truth dataset and classification model for detecting bots in
GitHub issue and PR comments [70.1864008701113]
ボットはGithubリポジトリで、分散ソフトウェア開発プロセスの一部である反復的なアクティビティを自動化するために使用されている。
本稿では,5000のGithubアカウントのプルリクエストとコメント発行に関する,高い相互契約を伴う手動分析に基づいて,基幹トラスデータセットを提案する。
ボットを検出する自動分類モデルを提案し,各アカウントの空のコメント数と空でないコメント数,コメントパターンの数,コメントパターン内のコメント間の不平等を主特徴とする。
論文 参考訳(メタデータ) (2020-10-07T09:30:52Z) - Detection of Novel Social Bots by Ensembles of Specialized Classifiers [60.63582690037839]
悪意ある俳優は、社会ボットとして知られるアルゴリズムによって部分的に制御される不正なソーシャルメディアアカウントを作成し、誤情報を広め、オンラインでの議論を扇動する。
異なるタイプのボットが、異なる行動特徴によって特徴づけられることを示す。
本稿では,ボットのクラスごとに専門的な分類器を訓練し,それらの決定を最大ルールで組み合わせる,教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T22:59:59Z) - Twitter Bot Detection Using Bidirectional Long Short-term Memory Neural
Networks and Word Embeddings [6.09170287691728]
本稿では,Twitterボットを人間アカウントと区別するために,単語埋め込みを用いたリカレントニューラルネットワークを開発した。
実験により,既存の最先端ボット検出システムと比較して,本手法が競争力を発揮することが示された。
論文 参考訳(メタデータ) (2020-02-03T17:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。