論文の概要: Botcha: Detecting Malicious Non-Human Traffic in the Wild
- arxiv url: http://arxiv.org/abs/2103.01428v1
- Date: Tue, 2 Mar 2021 02:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 12:38:00.004226
- Title: Botcha: Detecting Malicious Non-Human Traffic in the Wild
- Title(参考訳): botcha: 野生の悪質な非人間トラフィックを検出する
- Authors: Sunny Dhamnani, Ritwik Sinha, Vishwa Vinay, Lilly Kumari, Margarita
Savova
- Abstract要約: 悪質なボットはウェブ上のトラフィックの約4分の1を占め、パーソナライゼーションとレコメンデーションアルゴリズムのパフォーマンスを低下させます。
我々は、選択された完全非ランダムな仮定の違反に対して、より堅牢なポジティブ・アンラベル学習の2つの修正を提案する。
1つのパブリックデータセットと1つのプロプライエタリデータセットにおいて、提案手法は標準的なPU学習法よりも、Webデータ中の人間を特定するのに優れていることを示す。
- 参考スコア(独自算出の注目度): 2.3449131636069898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malicious bots make up about a quarter of all traffic on the web, and degrade
the performance of personalization and recommendation algorithms that operate
on e-commerce sites. Positive-Unlabeled learning (PU learning) provides the
ability to train a binary classifier using only positive (P) and unlabeled (U)
instances. The unlabeled data comprises of both positive and negative classes.
It is possible to find labels for strict subsets of non-malicious actors, e.g.,
the assumption that only humans purchase during web sessions, or clear
CAPTCHAs. However, finding signals of malicious behavior is almost impossible
due to the ever-evolving and adversarial nature of bots. Such a set-up
naturally lends itself to PU learning. Unfortunately, standard PU learning
approaches assume that the labeled set of positives are a random sample of all
positives, this is unlikely to hold in practice. In this work, we propose two
modifications to PU learning that make it more robust to violations of the
selected-completely-at-random assumption, leading to a system that can filter
out malicious bots. In one public and one proprietary dataset, we show that
proposed approaches are better at identifying humans in web data than standard
PU learning methods.
- Abstract(参考訳): 悪意のあるボットは、ウェブの全トラフィックの約4分の1を占め、eコマースサイトで動作するパーソナライゼーションとレコメンデーションアルゴリズムのパフォーマンスを低下させる。
Positive-Unlabeled Learning(PUラーニング)は、ポジティブ(P)と非ラベル(U)インスタンスのみを使用してバイナリ分類器をトレーニングする機能を提供する。
ラベルなしデータは、正クラスと負クラスの両方からなる。
非悪意のあるアクターの厳格なサブセット、例えば、Webセッション中に人間だけが購入する仮定、または明確なCAPTCHAのラベルを見つけることができます。
しかし、ボットの進化と敵対的な性質のため、悪意のある行動の信号を見つけることはほとんど不可能です。
このようなセットアップは自然にPU学習に役立ちます。
残念なことに、標準的なPU学習アプローチでは、ラベル付けされた正の集合が全ての正のランダムなサンプルであると仮定している。
本研究では,選択された完全無作為仮定の違反に対して,より堅牢なPU学習の2つの修正を提案し,悪意のあるボットを除外するシステムを提案する。
1つのパブリックデータセットと1つのプロプライエタリデータセットにおいて、提案手法は標準的なPU学習法よりも、Webデータ中の人間を特定するのに優れていることを示す。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Robust Positive-Unlabeled Learning via Noise Negative Sample
Self-correction [48.929877651182885]
正および未ラベルのデータから学ぶことは、文学における正の未ラベル(PU)学習として知られている。
本研究では,人間の学習の性質を動機とした学習戦略を取り入れた,新しい堅牢なPU学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T04:34:52Z) - Positive Unlabeled Learning Selected Not At Random (PULSNAR): class proportion estimation when the SCAR assumption does not hold [2.76815720120527]
PU学習(Positive and Unlabeled learning)は、半教師付きバイナリ分類の一種である。
PU学習は、確認された負が利用できない、あるいは入手が難しい設定において幅広い応用がある。
2つのPU学習アルゴリズムを提案し、$alpha$を推定し、PUインスタンスの確率を計算し、分類基準を改善する。
論文 参考訳(メタデータ) (2023-03-14T23:16:22Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Positive Unlabeled Contrastive Learning [14.975173394072053]
自己教師型事前学習パラダイムを古典的正の未ラベル(PU)設定に拡張する。
PU固有のクラスタリング手法を用いて,ラベルのないサンプルを擬似ラベル付けする手法を開発した。
提案手法は,いくつかの標準PUベンチマークデータセットに対して,最先端のPU手法を手作業で上回っている。
論文 参考訳(メタデータ) (2022-06-01T20:16:32Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Adaptive Positive-Unlabelled Learning via Markov Diffusion [0.0]
Positive-Unlabelled (PU) 学習は、正のインスタンスのセットのみをラベル付けする機械学習環境である。
このアルゴリズムの主な目的は、元来問題のない正のインスタンスを含む可能性のあるインスタンスの集合を特定することである。
論文 参考訳(メタデータ) (2021-08-13T10:25:47Z) - Detection of Novel Social Bots by Ensembles of Specialized Classifiers [60.63582690037839]
悪意ある俳優は、社会ボットとして知られるアルゴリズムによって部分的に制御される不正なソーシャルメディアアカウントを作成し、誤情報を広め、オンラインでの議論を扇動する。
異なるタイプのボットが、異なる行動特徴によって特徴づけられることを示す。
本稿では,ボットのクラスごとに専門的な分類器を訓練し,それらの決定を最大ルールで組み合わせる,教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T22:59:59Z) - Learning from Positive and Unlabeled Data with Arbitrary Positive Shift [11.663072799764542]
本稿では,未ラベルデータに対して任意の非表現陽性データであってもPU学習が可能であることを示す。
これを統計的に一貫した2つの手法に統合し、任意の正のバイアスに対処する。
実験により,多数の実世界のデータセットにまたがる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。