論文の概要: Trustworthiness Calibration Framework for Phishing Email Detection Using Large Language Models
- arxiv url: http://arxiv.org/abs/2511.04728v1
- Date: Thu, 06 Nov 2025 18:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.55768
- Title: Trustworthiness Calibration Framework for Phishing Email Detection Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたフィッシングメール検出のための信頼性校正フレームワーク
- Authors: Daniyal Ganiuly, Assel Smaiyl,
- Abstract要約: GPT-4やLLaMA-3-8Bのような大規模言語モデル(LLM)は、テキスト分類において高い精度を達成する。
本研究では,フィッシング検知器の再現性評価手法であるTCFを紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phishing emails continue to pose a persistent challenge to online communication, exploiting human trust and evading automated filters through realistic language and adaptive tactics. While large language models (LLMs) such as GPT-4 and LLaMA-3-8B achieve strong accuracy in text classification, their deployment in security systems requires assessing reliability beyond benchmark performance. To address this, this study introduces the Trustworthiness Calibration Framework (TCF), a reproducible methodology for evaluating phishing detectors across three dimensions: calibration, consistency, and robustness. These components are integrated into a bounded index, the Trustworthiness Calibration Index (TCI), and complemented by the Cross-Dataset Stability (CDS) metric that quantifies stability of trustworthiness across datasets. Experiments conducted on five corpora, such as SecureMail 2025, Phishing Validation 2024, CSDMC2010, Enron-Spam, and Nazario, using DeBERTa-v3-base, LLaMA-3-8B, and GPT-4 demonstrate that GPT-4 achieves the strongest overall trust profile, followed by LLaMA-3-8B and DeBERTa-v3-base. Statistical analysis confirms that reliability varies independently of raw accuracy, underscoring the importance of trust-aware evaluation for real-world deployment. The proposed framework establishes a transparent and reproducible foundation for assessing model dependability in LLM-based phishing detection.
- Abstract(参考訳): フィッシングメールは、人間の信頼を悪用し、リアルな言語と適応的な戦術を通じて自動フィルタを回避し、オンラインコミュニケーションに永続的に挑戦し続けている。
GPT-4やLLaMA-3-8Bのような大規模言語モデル(LLM)はテキスト分類において高い精度を達成するが、セキュリティシステムへの展開にはベンチマーク性能以上の信頼性を評価する必要がある。
そこで本研究では, キャリブレーション, 整合性, 堅牢性の3次元にわたるフィッシング検出器の再現可能な評価手法として, 信頼性校正フレームワーク(TCF)を紹介した。
これらのコンポーネントは、バウンドインデックスであるTCI(Trustworthiness Calibration Index)に統合され、データセット間の信頼性の安定性を定量化するCDS(Cross-Dataset Stability)メトリックによって補完される。
SecureMail 2025, Phishing Validation 2024, CSDMC2010, Enron-Spam, Nazarioの5つのコーパスにおいて, DeBERTa-v3-base, LLaMA-3-8B, GPT-4を用いた実験を行い, GPT-4が最強の総合信頼プロファイルを達成した。
統計的分析により、信頼性は生の正確性とは無関係に変化し、現実の展開において信頼を意識した評価の重要性が強調される。
提案フレームワークは, LLMに基づくフィッシング検出において, モデル信頼度を評価するための透過的かつ再現可能な基盤を確立する。
関連論文リスト
- ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability [23.70973331911138]
使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
本稿では,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークReFIneを提案する。
実験の結果,ReFIneモデルはより明確でより構造化された推論トレースを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-10T07:08:44Z) - Robust Partial 3D Point Cloud Registration via Confidence Estimation under Global Context [12.216399037814012]
部分点雲の登録は、自律認識と3Dシーン理解に不可欠である。
我々は,ロバストな部分的3次元登録のための統一的信頼性駆動型フレームワークであるCEGC(Global Context)に基づく信頼度推定を提案する。
CEGCは、共有グローバルコンテキスト内で重なり合う信頼性と対応信頼性を共同でモデル化することにより、複雑なシーンの正確なアライメントを可能にする。
論文 参考訳(メタデータ) (2025-09-29T04:36:55Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。
本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文 参考訳(メタデータ) (2025-03-04T18:40:49Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Automated Proof Generation for Rust Code via Self-Evolution [69.25795662658356]
私たちは、Rustコードの自動証明生成を可能にする、人書きスニペットの欠如を克服するフレームワークであるSAFEを紹介します。
SAFEは、細調整されたモデルの自己老化能力を訓練するために、多数の合成不正確な証明を再利用する。
我々は、人間の専門家によるベンチマークで52.52%の精度で達成し、GPT-4oのパフォーマンス14.39%を大きく上回った。
論文 参考訳(メタデータ) (2024-10-21T08:15:45Z) - FederatedTrust: A Solution for Trustworthy Federated Learning [3.202927443898192]
IoT(Internet of Things)の急速な拡張により、中央集権型機械学習(ML/DL)メソッドの課題が提示された。
データプライバシに関する懸念に対処するため、フェデレートラーニング(FL)のような、協調的でプライバシ保護のML/DL技術が登場した。
論文 参考訳(メタデータ) (2023-02-20T09:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。