論文の概要: Evaluating Human and Machine Confidence in Phishing Email Detection: A Comparative Study
- arxiv url: http://arxiv.org/abs/2601.04610v1
- Date: Thu, 08 Jan 2026 05:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.05378
- Title: Evaluating Human and Machine Confidence in Phishing Email Detection: A Comparative Study
- Title(参考訳): フィッシングメール検出における人間と機械の信頼度の評価 : 比較検討
- Authors: Paras Jain, Khushi Dhar, Olyemi E. Amujo, Esa M. Rantanen,
- Abstract要約: 本研究では、人間の認識と機械学習モデルがどのように連携し、フィッシングメールと正当性を区別するかを検討する。
その結果,機械学習モデルでは精度が向上するが,信頼性は著しく異なることがわかった。
一方、人間の評価者はより多様な言語記号を使用し、より一貫した信頼を維持する。
- 参考スコア(独自算出の注目度): 0.45961260934000997
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identifying deceptive content like phishing emails demands sophisticated cognitive processes that combine pattern recognition, confidence assessment, and contextual analysis. This research examines how human cognition and machine learn- ing models work together to distinguish phishing emails from legitimate ones. We employed three interpretable algorithms Logistic Regression, Decision Trees, and Random Forests train- ing them on both TF-IDF features and semantic embeddings, then compared their predictions against human evaluations that captured confidence ratings and linguistic observations. Our results show that machine learning models provide good accuracy rates, but their confidence levels vary significantly. Human evaluators, on the other hand, use a greater variety of language signs and retain more consistent confidence. We also found that while language proficiency has minimal effect on detection performance, aging does. These findings offer helpful direction for creating transparent AI systems that complement human cognitive functions, ultimately improving human-AI cooperation in challenging content analysis tasks.
- Abstract(参考訳): フィッシングメールのような偽装コンテンツを特定するには、パターン認識、信頼度評価、文脈分析を組み合わせた高度な認知プロセスが必要である。
本研究では、人間の認識と機械学習モデルがどのように連携し、フィッシングメールと正当性を区別するかを検討する。
我々は3つの解釈可能なアルゴリズムを用いて、TF-IDFの特徴とセマンティック埋め込みを訓練し、信頼性評価と言語学的観察を捉えた人間の評価と比較した。
その結果,機械学習モデルでは精度が向上するが,信頼性は著しく異なることがわかった。
一方、人間の評価者はより多様な言語記号を使用し、より一貫した信頼を維持する。
また,言語習熟度は検出性能に最小限の影響を及ぼすが,老化には影響しないことがわかった。
これらの発見は、人間の認知機能を補完する透明なAIシステムを作成する上で有用な方向を与え、究極的には、コンテンツ分析タスクにおける人間とAIの協力を改善する。
関連論文リスト
- Metacognitive Sensitivity for Test-Time Dynamic Model Selection [0.0]
我々は、AIメタ認知を評価し、活用するための新しいフレームワークを提案する。
メタ認知感度の心理学的評価尺度「メタd」を導入し,モデルの信頼度がモデルの精度を確実に予測できるかを特徴付ける。
次に、この動的感度スコアを、テスト時間モデル選択を行うバンドベースのアービタのコンテキストとして使用する。
論文 参考訳(メタデータ) (2025-12-11T09:15:05Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Anthropomimetic Uncertainty: What Verbalized Uncertainty in Language Models is Missing [66.04926909181653]
我々は人為的不確実性について論じる。つまり、直感的で信頼に値する不確実性コミュニケーションは、ユーザに対してある程度の言語的信頼とパーソナライズを必要とする。
我々は、不確実性に関する人間と機械のコミュニケーションにおけるユニークな要因を指摘し、機械の不確実性通信に影響を与えるデータのバイアスを分解する。
論文 参考訳(メタデータ) (2025-07-11T14:07:22Z) - When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration [79.69935257008467]
我々は,人間とAIの知識伝達能力に関する概念的かつ実験的フレームワークである知識統合と伝達評価(KITE)を紹介する。
最初の大規模人間実験(N=118)を行い,その測定を行った。
2段階のセットアップでは、まずAIを使って問題解決戦略を思いつき、その後独立してソリューションを実装し、モデル説明が人間の理解に与える影響を分離します。
論文 参考訳(メタデータ) (2025-06-05T20:48:16Z) - Human-in-the-Loop Annotation for Image-Based Engagement Estimation: Assessing the Impact of Model Reliability on Annotation Accuracy [5.862907885873446]
本研究では,ハイパフォーマンスなイメージベース感情モデルをHITLアノテーションフレームワークに統合する。
モデル信頼性および認知フレーミングの変化が、人間の信頼、認知負荷、アノテーション行動にどのように影響するかを検討する。
人間の監視と自動システムの強みを活用することにより、感情アノテーションのためのスケーラブルなHITLフレームワークを確立する。
論文 参考訳(メタデータ) (2025-02-11T09:37:10Z) - A Flexible Method for Behaviorally Measuring Alignment Between Human and Artificial Intelligence Using Representational Similarity Analysis [0.1957338076370071]
我々は、AIと人間間のアライメントを定量化するために、ペアワイズな類似度評価法であるRepresentational similarity Analysis (RSA)を適用した。
我々は,テキストと画像のモダリティ間のセマンティックアライメント(セマンティックアライメント)を検証し,Large Language and Vision Language Model(LLM, VLM)の類似性判断が,グループレベルでも個人レベルでも人間の反応とどのように一致しているかを測定した。
論文 参考訳(メタデータ) (2024-11-30T20:24:52Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。