論文の概要: Impact of Data Breadth and Depth on Performance of Siamese Neural Network Model: Experiments with Three Keystroke Dynamic Datasets
- arxiv url: http://arxiv.org/abs/2501.07600v1
- Date: Fri, 10 Jan 2025 17:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:40.559244
- Title: Impact of Data Breadth and Depth on Performance of Siamese Neural Network Model: Experiments with Three Keystroke Dynamic Datasets
- Title(参考訳): シームズニューラルネットワークモデルの性能に及ぼすデータブレッドスと深さの影響:3つのキーストローク動的データセットを用いた実験
- Authors: Ahmed Anu Wahab, Daqing Hou, Nadia Cheng, Parker Huntley, Charles Devlen,
- Abstract要約: 本研究では,データセットの幅と深さが行動バイオメトリックスの深層学習モデルに与える影響について検討する。
データセットの広さの増大は、よりオブジェクト間の変動を効果的に捉えた、十分に訓練されたモデルのトレーニングを可能にする。
対照的に、データセットからの深さの影響の程度は、データセットの性質に依存する。
- 参考スコア(独自算出の注目度): 0.9786690381850356
- License:
- Abstract: Deep learning models, such as the Siamese Neural Networks (SNN), have shown great potential in capturing the intricate patterns in behavioral data. However, the impacts of dataset breadth (i.e., the number of subjects) and depth (e.g., the amount of training samples per subject) on the performance of these models is often informally assumed, and remains under-explored. To this end, we have conducted extensive experiments using the concepts of "feature space" and "density" to guide and gain deeper understanding on the impact of dataset breadth and depth on three publicly available keystroke datasets (Aalto, CMU and Clarkson II). Through varying the number of training subjects, number of samples per subject, amount of data in each sample, and number of triplets used in training, we found that when feasible, increasing dataset breadth enables the training of a well-trained model that effectively captures more inter-subject variability. In contrast, we find that the extent of depth's impact from a dataset depends on the nature of the dataset. Free-text datasets are influenced by all three depth-wise factors; inadequate samples per subject, sequence length, training triplets and gallery sample size, which may all lead to an under-trained model. Fixed-text datasets are less affected by these factors, and as such make it easier to create a well-trained model. These findings shed light on the importance of dataset breadth and depth in training deep learning models for behavioral biometrics and provide valuable insights for designing more effective authentication systems.
- Abstract(参考訳): Siamese Neural Networks (SNN)のようなディープラーニングモデルは、行動データの複雑なパターンをキャプチャする大きな可能性を示している。
しかし、データセットの幅(被験者数)と深さ(被験者1人当たりのトレーニングサンプル数)がこれらのモデルの性能に与える影響は非公式に推定され、未調査のままである。
この目的のために、我々は、データセットの幅と深さが3つの公開キーストロークデータセット(アルト、CMU、クラークソンII)に与える影響をガイドし、より深く理解するために、「機能空間」と「密度」の概念を用いて広範な実験を行った。
トレーニング対象者数,被験者毎のサンプル数,サンプル毎のデータ量,トレーニングに使用するトリップレット数を変化させることで,データセットの幅が大きくなると,よりオブジェクト間の変動を効果的に捉えることができる十分に訓練されたモデルのトレーニングが可能になることがわかった。
対照的に、データセットからの深さの影響の程度は、データセットの性質に依存する。
自由テキストデータセットは、被検体毎の不十分なサンプル、シーケンス長、トレーニングトレーレット、ギャラリーサンプルサイズという、3つの深度に関するすべての要因に影響を受けており、これらすべてが未学習のモデルに繋がる可能性がある。
固定テキストデータセットはこれらの要因の影響を受けないため、十分にトレーニングされたモデルの作成が容易になる。
これらの知見は、行動バイオメトリックスのためのディープラーニングモデルのトレーニングにおいて、データセットの幅と深さの重要性を強調し、より効果的な認証システムを設計するための貴重な洞察を提供する。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Impact of dataset size and long-term ECoG-based BCI usage on deep
learning decoders performance [4.7773230870500605]
脳-コンピュータインタフェース(BCI)の研究では、記録データは時間がかかり費用がかかる。
デコーダのトレーニングにより多くのデータで高いデコード性能を実現できますか?
実験の後、比較的小さなデータセットで高い復号性能が得られた。
論文 参考訳(メタデータ) (2022-09-08T13:01:05Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Transformer-Based Behavioral Representation Learning Enables Transfer
Learning for Mobile Sensing in Small Datasets [4.276883061502341]
時系列から一般化可能な特徴表現を学習できるモバイルセンシングデータのためのニューラルネットワークフレームワークを提供する。
このアーキテクチャは、CNNとTrans-formerアーキテクチャの利点を組み合わせて、より良い予測性能を実現する。
論文 参考訳(メタデータ) (2021-07-09T22:26:50Z) - Exploring the Impacts from Datasets to Monocular Depth Estimation (MDE)
Models with MineNavi [5.689127984415125]
ディープラーニングに基づく現在のコンピュータビジョンタスクは、モデルトレーニングやテストのためのアノテーションを備えた大量のデータを必要とする。
実際には、高密度推定タスクのための手動ラベリングは非常に困難または不可能であり、データセットのシーンは小さな範囲に制限されることが多い。
本稿では,手作業の負担を伴わない拡張可能なデータセットを得るための合成データセット生成手法を提案する。
論文 参考訳(メタデータ) (2020-08-19T14:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。