論文の概要: BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection
- arxiv url: http://arxiv.org/abs/2207.13394v3
- Date: Tue, 11 Apr 2023 15:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 19:16:49.518915
- Title: BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection
- Title(参考訳): becaptcha型: ボット検出を改善するためのバイオメトリックキーストロークデータ生成
- Authors: Daniel DeAlcala and Aythami Morales and Ruben Tolosana and Alejandro
Acien and Julian Fierrez and Santiago Hernandez and Miguel A. Ferrer and
Moises Diaz
- Abstract要約: 本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
- 参考スコア(独自算出の注目度): 63.447493500066045
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work proposes a data driven learning model for the synthesis of
keystroke biometric data. The proposed method is compared with two statistical
approaches based on Universal and User-dependent models. These approaches are
validated on the bot detection task, using the keystroke synthetic data to
improve the training process of keystroke-based bot detection systems. Our
experimental framework considers a dataset with 136 million keystroke events
from 168 thousand subjects. We have analyzed the performance of the three
synthesis approaches through qualitative and quantitative experiments.
Different bot detectors are considered based on several supervised classifiers
(Support Vector Machine, Random Forest, Gaussian Naive Bayes and a Long
Short-Term Memory network) and a learning framework including human and
synthetic samples. The experiments demonstrate the realism of the synthetic
samples. The classification results suggest that in scenarios with large
labeled data, these synthetic samples can be detected with high accuracy.
However, in few-shot learning scenarios it represents an important challenge.
Furthermore, these results show the great potential of the presented models.
- Abstract(参考訳): 本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
これらのアプローチは、キーストローク合成データを用いて、ボット検出タスクで検証され、キーストロークベースのボット検出システムのトレーニングプロセスを改善する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
定性的および定量的な実験により3つの合成手法の性能を解析した。
異なるボット検出器は、教師付き分類器(Support Vector Machine、Random Forest、Gaussian Naive Bayes、Long Short-Term Memory Network)と人間と合成サンプルを含む学習フレームワークに基づいて検討されている。
実験は、合成サンプルの現実性を示す。
分類の結果,大規模ラベルデータの場合,これらの合成試料を高精度に検出できることが示唆された。
しかし、少数の学習シナリオでは、これは重要な課題である。
さらに,これらの結果は,提示されたモデルの大きな可能性を示す。
関連論文リスト
- Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory [8.713796223707398]
実データと合成データを混合して学習したバイナリ分類器の性能を,ランダム行列理論を用いて導出する。
本研究は, 生成モデルの品質と検証戦略に焦点をあてて, 合成データにより性能が向上する条件を明らかにした。
論文 参考訳(メタデータ) (2024-10-11T16:09:27Z) - Image change detection with only a few samples [7.5780621370948635]
画像変化検出タスクの最大の障害は、さまざまな場面をカバーする大きな注釈付きデータセットの欠如である。
本稿では,合成データを生成するための単純な画像処理手法を提案する。
次に、対象検出に基づく初期の融合ネットワークを設計し、シアムニューラルネットを上回ります。
論文 参考訳(メタデータ) (2023-11-07T07:01:35Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Domain Generalization via Ensemble Stacking for Face Presentation Attack
Detection [4.61143637299349]
顔提示攻撃検出(PAD)は、偽造攻撃に対する顔認識システムを保護する上で重要な役割を担っている。
本研究では,合成データ生成と深層アンサンブル学習を組み合わせた包括的ソリューションを提案する。
4つのデータセットに対する実験結果は、3つのベンチマークデータセット上でのHTER(low half total error rate)を示す。
論文 参考訳(メタデータ) (2023-01-05T16:44:36Z) - Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition [18.924716098922683]
合成データによる機械学習は、合成データと実際のデータ分布のギャップのため、簡単ではない。
本稿では,分散ギャップに起因する問題を緩和するために,トレーニング中の2つの新しい手法を提案する。
これらの手法は,合成データを用いた音声認識モデルの訓練を著しく改善することを示す。
論文 参考訳(メタデータ) (2021-10-21T21:11:42Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Evaluation of synthetic and experimental training data in supervised
machine learning applied to charge state detection of quantum dots [0.0]
シミュレーションおよび実験データに基づいて学習した機械学習モデルの予測精度を評価する。
分類器は、純粋に実験的なデータと、合成訓練データと実験訓練データの組み合わせの両方で最適であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。