論文の概要: Decoding Complexity: Intelligent Pattern Exploration with CHPDA (Context Aware Hybrid Pattern Detection Algorithm)
- arxiv url: http://arxiv.org/abs/2502.07815v1
- Date: Sun, 09 Feb 2025 07:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:04.722891
- Title: Decoding Complexity: Intelligent Pattern Exploration with CHPDA (Context Aware Hybrid Pattern Detection Algorithm)
- Title(参考訳): Decoding Complexity: Intelligent Pattern Exploration with CHPDA (Context Aware Hybrid Pattern Detection Algorithm)
- Authors: Lokesh Koli, Shubham Kalra, Karanpreet Singh,
- Abstract要約: 本研究では,検出速度,精度,スケーラビリティを最適化するために,パターンマッチングアルゴリズムと高精度検索手法について検討する。
正確なマッチングのために、Aho-Corasick氏は大規模なデータセットに対して優れたパフォーマンス(8ms/MB)とスケーラビリティを示した。
有効性にもかかわらず、サポートの制限や定期的なパターン更新の必要性といった課題は残る。
- 参考スコア(独自算出の注目度): 0.36868085124383626
- License:
- Abstract: Detecting sensitive data such as Personally Identifiable Information (PII) and Protected Health Information (PHI) is critical for data security platforms. This study evaluates regex-based pattern matching algorithms and exact-match search techniques to optimize detection speed, accuracy, and scalability. Our benchmarking results indicate that Google RE2 provides the best balance of speed (10-15 ms/MB), memory efficiency (8-16 MB), and accuracy (99.5%) among regex engines, outperforming PCRE while maintaining broader hardware compatibility than Hyperscan. For exact matching, Aho-Corasick demonstrated superior performance (8 ms/MB) and scalability for large datasets. Performance analysis revealed that regex processing time scales linearly with dataset size and pattern complexity. A hybrid AI + Regex approach achieved the highest F1 score (91. 6%) by improving recall and minimizing false positives. Device benchmarking confirmed that our solution maintains efficient CPU and memory usage on both high-performance and mid-range systems. Despite its effectiveness, challenges remain, such as limited multilingual support and the need for regular pattern updates. Future work should focus on expanding language coverage, integrating data security and privacy management (DSPM) with data loss prevention (DLP) tools, and enhancing regulatory compliance for broader global adoption.
- Abstract(参考訳): PII(Personally Identible Information)やPHI(Protected Health Information)といった機密データの検出は、データセキュリティプラットフォームにとって極めて重要である。
本研究は、検出速度、精度、スケーラビリティを最適化するために、Regexベースのパターンマッチングアルゴリズムと正確なマッチング探索手法を評価する。
ベンチマークの結果、Google RE2は、Hyperscanよりも広いハードウェア互換性を維持しながら、Regexエンジンの速度(10~15ms/MB)、メモリ効率(8~16MB)、精度(99.5%)の最良のバランスを提供することを示している。
正確なマッチングのために、Aho-Corasick氏は大規模なデータセットに対して優れたパフォーマンス(8ms/MB)とスケーラビリティを示した。
性能分析の結果、Regex処理時間はデータセットのサイズやパターンの複雑さとともに線形にスケールすることがわかった。
ハイブリッドAI + Regexアプローチは、リコールを改善し、偽陽性を最小限にすることで、最高スコア(91.6%)を達成した。
デバイスベンチマークでは,高性能システムと中距離システムの両方で,効率的なCPUとメモリ使用率を維持していることを確認した。
有効性にもかかわらず、多言語サポートの制限や、通常のパターン更新の必要性など、課題は残る。
今後の作業は、言語カバレッジの拡大、データセキュリティとプライバシ管理(DSPM)とデータ損失防止(DLP)ツールの統合、より広範なグローバルな採用のための規制コンプライアンスの強化に注力する必要がある。
関連論文リスト
- UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Hybrid Machine Learning Approach For Real-Time Malicious Url Detection Using Som-Rmo And Rbfn With Tabu Search Optimization [0.0]
悪意のあるURLの拡散は、インターネットのセキュリティにとって重大な脅威となっている。
従来の検出方法は、これらの脅威の進化する性質とペースを維持するのに苦労する。
本稿では,効率的な特徴抽出と正確な分類を組み合わせたハイブリッド機械学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T07:24:49Z) - Holographic Global Convolutional Networks for Long-Range Prediction Tasks in Malware Detection [50.7263393517558]
ホログラフィック還元表現(HRR)の特性を利用したホログラフィックグローバル畳み込みネットワーク(HGConv)を導入する。
他のグローバルな畳み込み法とは異なり、我々の手法は複雑なカーネル計算や人工カーネル設計を必要としない。
提案手法は,Microsoft Malware Classification Challenge, Drebin, EMBERのマルウェアベンチマークで新たなSOTA結果を得た。
論文 参考訳(メタデータ) (2024-03-23T15:49:13Z) - RIDE: Real-time Intrusion Detection via Explainable Machine Learning
Implemented in a Memristor Hardware Architecture [24.824596231020585]
本稿では、パケットの任意の長さのシーケンスをよりコンパクトな結合機能埋め込みに統合するために、リカレントオートエンコーダを利用するパケットレベルのネットワーク侵入検出ソリューションを提案する。
提案手法は,パケットレベルで高い検出精度で,極めて効率的かつリアルタイムな解が得られることを示す。
論文 参考訳(メタデータ) (2023-11-27T17:30:19Z) - Improved Sparse Ising Optimization [0.0]
本報告では,最大2万変数の長期ベンチマーク問題において,性能が著しく向上したことを示す新しいデータを示す。
速度と精度の組み合わせを先導するのとは対照的に、概念実証の実装は2-4桁の精度で目標に到達した。
このデータは、スパースIsingパフォーマンスフロンティアを、アルゴリズムポートフォリオ、AIツールキット、意思決定システムを強化するために推進するエキサイティングな可能性を示している。
論文 参考訳(メタデータ) (2023-11-15T17:59:06Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability
Detection [17.761541379830373]
DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。
最高性能のベースラインモデルより75倍速く、9分で訓練された。
平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
論文 参考訳(メタデータ) (2022-12-15T19:49:27Z) - A Dependable Hybrid Machine Learning Model for Network Intrusion
Detection [1.222622290392729]
本稿では,機械学習とディープラーニングを組み合わせたハイブリッドモデルを提案する。
提案手法は,KDDCUP'99とCIC-MalMem-2022の2つのデータセットでテストした場合,優れた結果が得られる。
論文 参考訳(メタデータ) (2022-12-08T20:19:27Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。