論文の概要: Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explainability
- arxiv url: http://arxiv.org/abs/2506.13746v1
- Date: Mon, 16 Jun 2025 17:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.197058
- Title: Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explainability
- Title(参考訳): フィッシング検出, 自己整合性, 忠実度, 説明可能性のための大規模言語モデルの評価
- Authors: Shova Kuikel, Aritran Piplai, Palvi Aggarwal,
- Abstract要約: 大規模言語モデル(LLM)は、ドメイン固有のフィッシング分類タスクを改善するための有望な方向性と可能性を示している。
LLMはフィッシングメールを正確に分類するだけでなく、予測に確実に適合し、内部に一貫性のある説明を生成することができるのか?
BERT、Llamaモデル、Wizardなど、微調整されたトランスフォーマーベースのモデルを使って、ドメインの関連性を改善し、特定の区別をフィッシングするように調整しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phishing attacks remain one of the most prevalent and persistent cybersecurity threat with attackers continuously evolving and intensifying tactics to evade the general detection system. Despite significant advances in artificial intelligence and machine learning, faithfully reproducing the interpretable reasoning with classification and explainability that underpin phishing judgments remains challenging. Due to recent advancement in Natural Language Processing, Large Language Models (LLMs) show a promising direction and potential for improving domain specific phishing classification tasks. However, enhancing the reliability and robustness of classification models requires not only accurate predictions from LLMs but also consistent and trustworthy explanations aligning with those predictions. Therefore, a key question remains: can LLMs not only classify phishing emails accurately but also generate explanations that are reliably aligned with their predictions and internally self-consistent? To answer these questions, we have fine-tuned transformer based models, including BERT, Llama models, and Wizard, to improve domain relevance and make them more tailored to phishing specific distinctions, using Binary Sequence Classification, Contrastive Learning (CL) and Direct Preference Optimization (DPO). To that end, we examined their performance in phishing classification and explainability by applying the ConsistenCy measure based on SHAPley values (CC SHAP), which measures prediction explanation token alignment to test the model's internal faithfulness and consistency and uncover the rationale behind its predictions and reasoning. Overall, our findings show that Llama models exhibit stronger prediction explanation token alignment with higher CC SHAP scores despite lacking reliable decision making accuracy, whereas Wizard achieves better prediction accuracy but lower CC SHAP scores.
- Abstract(参考訳): フィッシング攻撃は、一般的な検知システムを避けるための戦術を継続的に進化させ、強化する攻撃者にとって、最も一般的で永続的なサイバーセキュリティの脅威の1つだ。
人工知能と機械学習の大幅な進歩にもかかわらず、分類と説明可能性によって解釈可能な推論を忠実に再現し、フィッシングの判断を下すことは依然として困難である。
近年の自然言語処理の進歩により、Large Language Models (LLMs) は、ドメイン固有のフィッシング分類タスクを改善するための有望な方向性と可能性を示している。
しかし、分類モデルの信頼性と堅牢性を高めるには、LSMからの正確な予測だけでなく、それらの予測と一致した一貫性と信頼性のある説明が必要である。
したがって、重要な疑問が残る: LLMはフィッシングメールを正確に分類するだけでなく、予測と確実に一致し、内部的に一貫性のある説明を生成することができるか?
これらの質問に答えるために、BERT、Llamaモデル、Wizardなどの微調整されたトランスフォーマーモデルがあり、ドメインの関連性を改善し、バイナリシーケンス分類(CL)、コントラスト学習(CL)、直接参照最適化(DPO)を使用して、特定の区別をフィッシングするように調整しています。
そこで我々は,モデルの内部の忠実度と一貫性を検証し,その予測と推論の背後にある理論的根拠を明らかにするために,SHAPley値(CC SHAP)に基づくConsistenCy測度を適用して,フィッシング分類と説明可能性の評価を行った。
以上の結果から,Llamaモデルでは信頼性に欠けるCC SHAPスコアと高いCC SHAPスコアとの相関が強く,Wizardでは予測精度は向上するが,CC SHAPスコアは低下することがわかった。
関連論文リスト
- Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - A Gradient-Optimized TSK Fuzzy Framework for Explainable Phishing Detection [0.0]
既存のフィッシング検出手法は高い精度と説明可能性の両立に苦慮している。
勾配に基づく手法により最適化された1次高木・スゲノ・カンファジィ推論モデルに基づく新しいフィッシングURL検出システムを提案する。
論文 参考訳(メタデータ) (2025-04-25T18:31:05Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers [9.349442247982557]
テキスト分類のための機械学習(ML)は、様々な領域で広く使われている。
これらの応用は倫理、経済、人間の行動に大きな影響を及ぼす可能性がある。
研究は、従来のメトリクスがMLモデルにおける人間の信頼を構築するのに不十分であることを示している。
これを避けるために、データ内の有効なパターンに基づいて予測が妥当かどうかをテストするのが一般的である。
論文 参考訳(メタデータ) (2024-10-30T03:26:37Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Reachable Sets of Classifiers and Regression Models: (Non-)Robustness
Analysis and Robust Training [1.0878040851638]
分類器と回帰モデルの両方の頑健性特性を解析・拡張する。
具体的には、(非)難易度を検証し、堅牢なトレーニング手順を提案し、我々のアプローチが敵攻撃よりも優れていることを示す。
第2に、ラベル付けされていない入力に対する信頼できない予測と信頼できない予測を区別し、各特徴が予測に与える影響を定量化し、特徴ランキングを計算する技術を提供する。
論文 参考訳(メタデータ) (2020-07-28T10:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。