論文の概要: Simplistic Collection and Labeling Practices Limit the Utility of
Benchmark Datasets for Twitter Bot Detection
- arxiv url: http://arxiv.org/abs/2301.07015v1
- Date: Tue, 17 Jan 2023 17:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:34:12.845914
- Title: Simplistic Collection and Labeling Practices Limit the Utility of
Benchmark Datasets for Twitter Bot Detection
- Title(参考訳): Twitterボット検出のためのベンチマークデータセットの有用性を制限するシンプルコレクションとラベル付けの実践
- Authors: Chris Hays, Zachary Schutzman, Manish Raghavan, Erin Walk and Philipp
Zimmer
- Abstract要約: ツールの高度化よりも,データセットの収集やラベル付けの制限によって高いパフォーマンスがもたらされることを示す。
この結果は,サンプリングおよびラベル付け手順における透明性と,研究における潜在的なバイアスの両方に重要な影響を及ぼす。
- 参考スコア(独自算出の注目度): 3.8428576920007083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate bot detection is necessary for the safety and integrity of online
platforms. It is also crucial for research on the influence of bots in
elections, the spread of misinformation, and financial market manipulation.
Platforms deploy infrastructure to flag or remove automated accounts, but their
tools and data are not publicly available. Thus, the public must rely on
third-party bot detection. These tools employ machine learning and often
achieve near perfect performance for classification on existing datasets,
suggesting bot detection is accurate, reliable and fit for use in downstream
applications. We provide evidence that this is not the case and show that high
performance is attributable to limitations in dataset collection and labeling
rather than sophistication of the tools. Specifically, we show that simple
decision rules -- shallow decision trees trained on a small number of features
-- achieve near-state-of-the-art performance on most available datasets and
that bot detection datasets, even when combined together, do not generalize
well to out-of-sample datasets. Our findings reveal that predictions are highly
dependent on each dataset's collection and labeling procedures rather than
fundamental differences between bots and humans. These results have important
implications for both transparency in sampling and labeling procedures and
potential biases in research using existing bot detection tools for
pre-processing.
- Abstract(参考訳): オンラインプラットフォームの安全性と整合性には、正確なボット検出が必要である。
また、選挙におけるボットの影響、誤情報の拡散、金融市場の操作に関する研究にも重要である。
プラットフォームは自動アカウントのフラグや削除のためにインフラストラクチャをデプロイするが、ツールやデータは公開されていない。
したがって、大衆はサードパーティのボット検出に頼らなければならない。
これらのツールは機械学習を採用し、既存のデータセットの分類にほぼ完璧に近い性能を達成し、ボット検出が正確で信頼性があり、下流アプリケーションでの使用に適していることを示唆する。
ツールの高度化よりも,データセットの収集やラベル付けの制限によるパフォーマンスの向上が寄与していることを示す証拠を提供する。
具体的には、少数の機能でトレーニングされた浅い決定木である単純な決定ルールが、ほとんどの利用可能なデータセットで最先端のパフォーマンスを実現し、組み合わせてもボット検出データセットは、サンプル外のデータセットにうまく一般化しないことを示す。
その結果,ボットと人間の基本的な違いよりも,データセットの収集とラベル付けの手順に大きく依存していることが判明した。
これらの結果は、サンプリングおよびラベリング手順の透明性と、既存のボット検出ツールを用いた研究における潜在的なバイアスの両方に重要な意味を持つ。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - BotSSCL: Social Bot Detection with Self-Supervised Contrastive Learning [6.317191658158437]
自己監督型コントラスト学習(BotSSCL)を用いたソーシャルボット検出のための新しいフレームワークを提案する。
BotSSCLは対照的な学習を用いて、埋め込み空間におけるソーシャルボットと人間を区別し、線形分離性を改善する。
ボットアカウントの操作による検出回避に対するBotSSCLの堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-06T06:13:13Z) - BotShape: A Novel Social Bots Detection Approach via Behavioral Patterns [4.386183132284449]
実世界のデータセットに基づいて、生のイベントログから行動シーケンスを構築する。
ボットと真のユーザの違いと、ボットアカウント間の類似パターンを観察する。
本稿では,行動の順序や特徴を自動的に把握するソーシャルボット検出システムBotShapeを提案する。
論文 参考訳(メタデータ) (2023-03-17T19:03:06Z) - Promises and Pitfalls of Threshold-based Auto-labeling [17.349289155257715]
Threshold-based auto-labeling (TBAL)
我々は,機械ラベルデータの品質を保証するために必要な人間ラベル付き検証データの量に基づいて,複雑性境界を導出する。
我々は、合成データセットと実データセットに関する広範な実験により、理論的保証を検証する。
論文 参考訳(メタデータ) (2022-11-22T22:53:17Z) - Prompt-driven efficient Open-set Semi-supervised Learning [52.30303262499391]
オープンセット半教師付き学習(OSSL)は関心を集めており、未ラベルデータにのみOOD(Out-of-distribution)サンプルが組み込まれているというより実践的なシナリオを調査している。
我々はOpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T16:25:08Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。