論文の概要: SecureNet: A Comparative Study of DeBERTa and Large Language Models for Phishing Detection
- arxiv url: http://arxiv.org/abs/2406.06663v1
- Date: Mon, 10 Jun 2024 13:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:35:12.765328
- Title: SecureNet: A Comparative Study of DeBERTa and Large Language Models for Phishing Detection
- Title(参考訳): SecureNet: フィッシング検出のためのDeBERTaと大規模言語モデルの比較検討
- Authors: Sakshi Mahendru, Tejul Pandit,
- Abstract要約: フィッシングは、ソーシャルエンジニアリングを使ってユーザーを騙して機密情報を明らかにすることで、組織にとって大きな脅威となる。
本稿では,Large Language Models (LLMs) の顕著な性能を,テキスト分類のような特定のタスクに活用できるかどうかを検討する。
LLMがいかにして説得力のあるフィッシングメールを生成するかを示し、詐欺を見つけるのを難しくする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phishing, whether through email, SMS, or malicious websites, poses a major threat to organizations by using social engineering to trick users into revealing sensitive information. It not only compromises company's data security but also incurs significant financial losses. In this paper, we investigate whether the remarkable performance of Large Language Models (LLMs) can be leveraged for particular task like text classification, particularly detecting malicious content and compare its results with state-of-the-art Deberta V3 (DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing) model. We systematically assess the potential and limitations of both approaches using comprehensive public datasets comprising diverse data sources such as email, HTML, URL, SMS, and synthetic data generation. Additionally, we demonstrate how LLMs can generate convincing phishing emails, making it harder to spot scams and evaluate the performance of both models in this context. Our study delves further into the challenges encountered by DeBERTa V3 during its training phases, fine-tuning methodology and transfer learning processes. Similarly, we examine the challenges associated with LLMs and assess their respective performance. Among our experimental approaches, the transformer-based DeBERTa method emerged as the most effective, achieving a test dataset (HuggingFace phishing dataset) recall (sensitivity) of 95.17% closely followed by GPT-4 providing a recall of 91.04%. We performed additional experiments with other datasets on the trained DeBERTa V3 model and LLMs like GPT 4 and Gemini 1.5. Based on our findings, we provide valuable insights into the effectiveness and robustness of these advanced language models, offering a detailed comparative analysis that can inform future research efforts in strengthening cybersecurity measures for detecting and mitigating phishing threats.
- Abstract(参考訳): フィッシングはメール、SMS、悪意のあるウェブサイトを通じてでも、ソーシャルエンジニアリングを使ってユーザーを騙して機密情報を公開することで、組織にとって大きな脅威となる。
これは会社のデータセキュリティを損なうだけでなく、大きな損失をもたらす。
本稿では,Large Language Models (LLMs) の顕著な性能をテキスト分類,特に悪意のあるコンテンツの検出などのタスクに活用できるかどうかを,ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing(ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing)モデルを用いて,最先端のDeberta V3(DeBERTa)モデルと比較する。
電子メール,HTML,URL,SMS,合成データ生成など,さまざまなデータソースからなる包括的公開データセットを用いて,両アプローチの可能性と限界を体系的に評価する。
さらに、LLMがいかにして説得力のあるフィッシングメールを生成できるかを実証し、詐欺を見つけにくくし、この文脈で両方のモデルの性能を評価する。
本研究は,DeBERTa V3の訓練段階における課題,微調整手法,伝達学習プロセスについて,さらに詳しく検討した。
同様に、LLMに関連する課題を調査し、それぞれの性能を評価する。
我々の実験的アプローチの中で、トランスフォーマーベースのDeBERTa法が最も効果的で、テストデータセット(HuggingFaceフィッシングデータセット)のリコール(感度)が95.17%、GPT-4のリコールが91.04%に達した。
トレーニングしたDeBERTa V3モデルと,GPT 4 や Gemini 1.5 などの LLM 上で,他のデータセットを用いた追加実験を行った。
我々は,これらの先進言語モデルの有効性と堅牢性に関する貴重な知見を提供し,フィッシングの脅威を検出し緩和するためのサイバーセキュリティ対策を強化するための今後の研究成果を詳細に比較分析する。
関連論文リスト
- SAFE: Advancing Large Language Models in Leveraging Semantic and Syntactic Relationships for Software Vulnerability Detection [23.7268575752712]
ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムにとって、一般的かつ重要な懸念事項として浮上している。
本稿では,SVDのソースコードデータから意味的・統語的関係を学習し,活用するための大規模言語モデルの能力を高める新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-02T00:49:02Z) - Tracing Privacy Leakage of Language Models to Training Data via Adjusted Influence Functions [5.194905607116855]
この研究は、インフルエンス関数(IF)を実装して、トレーニングデータにプライバシリークをトレースする。
本稿では,大きな勾配ノルムを持つトークンの重みを減少させるHuristically Adjusted IF (HAIF)を提案する。
HAIFは追跡精度を大幅に改善し、PII-Eデータセットでは20.96%から73.71%、PII-CRデータセットでは3.21%から45.93%に向上した。
論文 参考訳(メタデータ) (2024-08-20T00:40:49Z) - An Explainable Transformer-based Model for Phishing Email Detection: A
Large Language Model Approach [2.8282906214258805]
フィッシングメール(英: Phishing email)は、機密情報を盗んだり、金銭的損害を与える目的で偽のメールを送ることによって、ユーザーを騙そうとする深刻なサイバー脅威である。
大規模な学術研究にもかかわらず、フィッシング検出はサイバーセキュリティの分野で今も進行中で恐ろしい課題である。
フィッシングメールの検出のために最適化された微調整変換器を用いた DistilBERT モデルを提案する。
論文 参考訳(メタデータ) (2024-02-21T15:23:21Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Client-side Gradient Inversion Against Federated Learning from Poisoning [59.74484221875662]
フェデレートラーニング(FL)により、分散参加者は、データを中央サーバに直接共有することなく、グローバルモデルをトレーニングできる。
近年の研究では、FLは元のトレーニングサンプルの再構築を目的とした勾配反転攻撃(GIA)に弱いことが判明している。
本稿では,クライアント側から起動可能な新たな攻撃手法であるクライアント側中毒性グレーディエント・インバージョン(CGI)を提案する。
論文 参考訳(メタデータ) (2023-09-14T03:48:27Z) - Detecting Phishing Sites Using ChatGPT [2.3999111269325266]
本稿では,大規模言語モデル(LLM)を用いてフィッシングサイトを検出するChatPhishDetectorという新しいシステムを提案する。
本システムでは,Webクローラを利用してWebサイトから情報を収集し,クローリングデータに基づいてLLMのプロンプトを生成し,LLMが生成した応答から検出結果を取得する。
GPT-4Vを用いた実験結果は、98.7%の精度と99.6%のリコールで優れた性能を示し、他のLLMや既存のシステムよりも優れていた。
論文 参考訳(メタデータ) (2023-06-09T11:30:08Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。