論文の概要: Interpretable Ransomware Detection Using Hybrid Large Language Models: A Comparative Analysis of BERT, RoBERTa, and DeBERTa Through LIME and SHAP
- arxiv url: http://arxiv.org/abs/2511.13517v1
- Date: Mon, 17 Nov 2025 15:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.34149
- Title: Interpretable Ransomware Detection Using Hybrid Large Language Models: A Comparative Analysis of BERT, RoBERTa, and DeBERTa Through LIME and SHAP
- Title(参考訳): ハイブリッド大言語モデルを用いた解釈可能なランサムウェア検出:LIMEとSHAPによるBERT,RoBERTa,DeBERTaの比較分析
- Authors: Elodie Mutombo Ngoie, Mike Nkongolo Wa Nkongolo, Peace Azugo, Mahmut Tokmak,
- Abstract要約: 本研究では,ランサムウェア検出のための3つのトランスフォーマーベース大規模言語モデル(LLM)の比較分析を行った。
数値的および分類的ランサムウェア機能はKBinsDiscretizerとトークンベースのエンコーディングを用いてテキストシーケンスに変換された。
約2,500個のラベル付きサンプルを微調整し,精度,F1スコア,ROC-AUCを用いて評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Ransomware continues to evolve in complexity, making early and explainable detection a critical requirement for modern cybersecurity systems. This study presents a comparative analysis of three Transformer-based Large Language Models (LLMs) (BERT, RoBERTa, and DeBERTa) for ransomware detection using two structured datasets: UGRansome and Process Memory (PM). Since LLMs are primarily designed for natural language processing (NLP), numerical and categorical ransomware features were transformed into textual sequences using KBinsDiscretizer and token-based encoding. This enabled the models to learn behavioural patterns from system activity and network traffic through contextual embeddings. The models were fine-tuned on approximately 2,500 labelled samples and evaluated using accuracy, F1 score, and ROC-AUC. To ensure transparent decision-making in this high-stakes domain, two explainable AI techniques (LIME and SHAP) were applied to interpret feature contributions. The results show that the models learn distinct ransomware-related cues: BERT relies heavily on dominant file-operation features, RoBERTa demonstrates balanced reliance on network and financial signals, while DeBERTa exhibits strong sensitivity to financial and network-traffic indicators. Visualisation of embeddings further reveals structural differences in token representation, with RoBERTa producing more isotropic embeddings and DeBERTa capturing highly directional, disentangled patterns. In general, RoBERTa achieved the strongest F1-score, while BERT yielded the highest ROC-AUC performance. The integration of LLMs with XAI provides a transparent framework capable of identifying feature-level evidence behind ransomware predictions.
- Abstract(参考訳): ランサムウェアは複雑化を続けており、現代のサイバーセキュリティシステムにとって、早期かつ説明可能な検出が重要な要件となっている。
本研究では、2つの構造化データセット(UGRansomeとProcess Memory(PM))を用いたランサムウェア検出のための3つのトランスフォーマーベース大規模言語モデル(BERT,RoBERTa,DeBERTa)の比較分析を行った。
LLMは主に自然言語処理(NLP)用に設計されているため、数値的および分類的ランサムウェア機能はKBinsDiscretizerとトークンベースのエンコーディングを使用してテキストシーケンスに変換された。
これにより,コンテキスト埋め込みを通じて,システムアクティビティやネットワークトラフィックから行動パターンを学習することが可能になった。
約2,500個のラベル付きサンプルを微調整し,精度,F1スコア,ROC-AUCを用いて評価した。
この高い領域における透明な意思決定を保証するために、2つの説明可能なAI技術(LIMEとSHAP)を適用した。
BERTはファイル操作の優位性に大きく依存しており、RoBERTaはネットワークと金融信号にバランスよく依存していることを示し、DeBERTaは金融とネットワークのトラヒックの指標に強い感受性を示す。
埋め込みの可視化はさらにトークン表現の構造的な違いを明らかにし、RoBERTaはより等方的な埋め込みを生成し、DeBERTaは高度に方向が合わなかったパターンをキャプチャする。
一般にRoBERTaは最強のF1スコアを獲得し、BERTはROC-AUCの最高パフォーマンスを獲得した。
LLMとXAIの統合は、ランサムウェアの予測の背後にある特徴レベルの証拠を識別できる透過的なフレームワークを提供する。
関連論文リスト
- RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large Language Models [9.065322387043546]
人間の推論を反映した3つの解釈可能なフェーズに大言語モデルを分解するフレームワークであるRHINOを紹介する。
RHINOは、構造的推論による出力信頼性を改善しながら、低レベルの観測と反対方向のセマンティックギャップを橋渡しする。
以上の結果から,RHINOは脅威解析の解釈可能性やスケーラビリティを著しく向上させ,LLMを運用上のセキュリティ設定にデプロイするための青写真を提供することが示された。
論文 参考訳(メタデータ) (2025-10-16T02:25:46Z) - Utilizing Large Language Models for Machine Learning Explainability [37.31918138232927]
本研究では,機械学習(ML)ソリューションを自律的に生成する際の,大規模言語モデル(LLM)の説明可能性について検討する。
最先端の3つのLCMは、ランダムフォレスト、XGBoost、マルチレイヤーパーセプトロン、ロング短期記憶ネットワークの4つの共通分類器のためのトレーニングパイプラインを設計するよう促される。
生成したモデルは、SHAP(SHapley Additive exPlanations)を用いた予測性能(リコール、精度、F1スコア)と説明可能性の観点から評価される。
論文 参考訳(メタデータ) (2025-10-08T11:46:23Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Assessing Classical Machine Learning and Transformer-based Approaches for Detecting AI-Generated Research Text [0.0]
機械学習アプローチは、ChatGPT-3.5生成したテキストと人間のテキストを区別することができる。
DistilBERTは全体的な最高のパフォーマンスを達成し、Logistic RegressionとBERT-Customはしっかりとしたバランスの取れた代替手段を提供する。
論文 参考訳(メタデータ) (2025-09-20T04:36:21Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models [0.0]
本研究では,感情分類の精度と頑健性を改善するために,トランスフォーマーモデルを組み合わせたハイブリッドフレームワークについて検討する。
このフレームワークは、ノイズの多いデータ、コンテキストのあいまいさ、さまざまなデータセット間の一般化といった課題に対処する。
この研究は、ソーシャルメディアのモニタリング、顧客感情分析、世論の追跡など、現実世界のタスクへの適用性を強調している。
論文 参考訳(メタデータ) (2025-04-14T05:44:11Z) - Novel Approach to Intrusion Detection: Introducing GAN-MSCNN-BILSTM with LIME Predictions [0.0]
本稿では、GAN(Generative Adversarial Networks)、MSCNN(Multi-Scale Convolutional Neural Networks)、Bidirectional Long Short-Term Memory(BiLSTM)を利用した革新的な侵入検知システムを提案する。
このシステムは、通常のパターンと攻撃パターンの両方を含む、現実的なネットワークトラフィックデータを生成する。
標準ベンチマークであるHogzillaデータセットの評価では、多クラス分類では99.16%、バイナリ分類では99.10%という印象的な精度を示している。
論文 参考訳(メタデータ) (2024-06-08T11:26:44Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - PIN: A Novel Parallel Interactive Network for Spoken Language
Understanding [68.53121591998483]
既存の RNN ベースのアプローチでは、ID と SF のタスクは、それらの間の相関情報を利用するために、しばしば共同でモデル化される。
SNIPSとATISという2つのベンチマークデータセットによる実験は、我々のアプローチの有効性を実証している。
さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-09-28T15:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。