論文の概要: LogGuardQ: A Cognitive-Enhanced Reinforcement Learning Framework for Cybersecurity Anomaly Detection in Security Logs
- arxiv url: http://arxiv.org/abs/2509.10511v1
- Date: Tue, 02 Sep 2025 15:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.768195
- Title: LogGuardQ: A Cognitive-Enhanced Reinforcement Learning Framework for Cybersecurity Anomaly Detection in Security Logs
- Title(参考訳): LogGuardQ: セキュリティログにおけるサイバーセキュリティ異常検出のための認知強化強化学習フレームワーク
- Authors: Umberto Gonçalves de Sousa,
- Abstract要約: 強化学習はシーケンシャルな意思決定に変化をもたらした。
Deep Q-Networks (DQN) や Proximal Policy Optimization (PPO) といった従来のアルゴリズムは、しばしば効率的な探索に苦労する。
この研究は、人間の認知にインスパイアされたデュアルメモリシステムを統合する新しいフレームワークであるLogGuardQを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has transformed sequential decision-making, but traditional algorithms like Deep Q-Networks (DQNs) and Proximal Policy Optimization (PPO) often struggle with efficient exploration, stability, and adaptability in dynamic environments. This study presents LogGuardQ (Adaptive Log Guard with Cognitive enhancement), a novel framework that integrates a dual-memory system inspired by human cognition and adaptive exploration strategies driven by temperature decay and curiosity. Evaluated on a dataset of 1,000,000 simulated access logs with 47.9% anomalies over 20,000 episodes, LogGuardQ achieves a 96.0% detection rate (versus 93.0% for DQN and 47.1% for PPO), with precision of 0.4776, recall of 0.9996, and an F1-score of 0.6450. The mean reward is 20.34 \pm 44.63 across all episodes (versus 18.80 \pm 43.98 for DQN and -0.17 \pm 23.79 for PPO), with an average of 5.0 steps per episode (constant across models). Graphical analyses, including learning curves smoothed with a Savgol filter (window=501, polynomial=2), variance trends, action distributions, and cumulative detections, demonstrate LogGuardQ's superior stability and efficiency. Statistical tests (Mann-Whitney U) confirm significant performance advantages (e.g., p = 0.0002 vs. DQN with negligible effect size, p < 0.0001 vs. PPO with medium effect size, and p < 0.0001 for DQN vs. PPO with small effect size). By bridging cognitive science and RL, LogGuardQ offers a scalable approach to adaptive learning in uncertain environments, with potential applications in cybersecurity, intrusion detection, and decision-making under uncertainty.
- Abstract(参考訳): 強化学習(RL)は、シーケンシャルな意思決定に変化をもたらしたが、Deep Q-Networks(DQN)やPPO(Proximal Policy Optimization)といった従来のアルゴリズムは、動的環境における効率的な探索、安定性、適応性に苦しむことが多い。
本研究は, 温度劣化と好奇心によって駆動される, 人間の認知と適応的な探索戦略にインスパイアされた, 二重メモリシステムを統合する新しいフレームワークであるLogGuardQを提案する。
20,000回にわたる47.9%の異常を持つ1000,000のシミュレートされたアクセスログに基づいて評価され、LogGuardQは96.0%(DQNは93.0%、PPOは47.1%)で精度は0.4776、リコールは0.9996、F1スコアは0.6450である。
平均報酬は全エピソードで20.34 \pm 44.63(DQNは18.80 \pm 43.98、PPOは-0.17 \pm 23.79)であり、各エピソード平均5.0ステップ(モデル間では一定)である。
Savgolフィルタで滑らか化された学習曲線(window=501, polynomial=2)、分散傾向、行動分布、累積検出などを含むグラフィカル解析は、LogGuardQの優れた安定性と効率を実証している。
統計的試験 (Mann-Whitney U) は, 有効性が無視できるp = 0.0002 vs. DQN, p < 0.0001 vs. PPO with medium effect size, p < 0.0001 for DQN vs. PPO with small effect size) を示す。
認知科学とRLをブリッジすることによって、LogGuardQは、不確実な環境での適応学習にスケーラブルなアプローチを提供する。
関連論文リスト
- ARDNS-FN-Quantum: A Quantum-Enhanced Reinforcement Learning Framework with Cognitive-Inspired Adaptive Exploration for Dynamic Environments [0.0]
本研究では,動作選択のための2量子ビット量子回路を統合する新しいフレームワークARDNS-FN-Quantumを提案する。
ARDNS-FN-Quantumは10X10グリッドワールドで2万回以上評価され、99.5%の成功率を達成した。
量子コンピューティング、認知科学、RLをブリッジすることで、ARDNS-FN-Quantumは適応学習に対するスケーラブルで人間らしいアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-07T23:48:41Z) - Out-of-Distribution Detection with Prototypical Outlier Proxy [17.130831264648997]
よく訓練されたディープモデルは、目に見えないテストデータに対して過剰な自信を持つ傾向があります。
近年の研究では、実際のまたは合成された外れ値を利用して問題を緩和しようとしている。
POP(Prototypeal Outlier Proxy)を提案する。
論文 参考訳(メタデータ) (2024-12-22T06:32:20Z) - IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency [20.61046457594186]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では、悪意のあるテスト画像のフィルタリングを行うための、シンプルで効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を提案する。
論文 参考訳(メタデータ) (2024-05-16T03:19:52Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。