論文の概要: AI Powered Image Analysis for Phishing Detection
- arxiv url: http://arxiv.org/abs/2604.13555v1
- Date: Wed, 15 Apr 2026 07:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.426339
- Title: AI Powered Image Analysis for Phishing Detection
- Title(参考訳): フィッシング検出のためのAIパワー画像解析
- Authors: K. Acharya, S. Ale, R. Kadel,
- Abstract要約: 本稿では,画像ベースフィッシング検出のためのWebページスクリーンショットを用いた深層学習手法を提案する。
ConvNeXt-Tiny と Vision Transformer (ViT-Base) という2つのビジョンモデルを用いて、視覚的に偽装されたフィッシングページの処理方法の検証を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phishing websites now rely heavily on visual imitation-copied logos, similar layouts, and matching colours-to avoid detection by text- and URL-based systems. This paper presents a deep learning approach that uses webpage screenshots for image-based phishing detection. Two vision models, ConvNeXt-Tiny and Vision Transformer (ViT-Base), were tested to see how well they handle visually deceptive phishing pages. The framework covers dataset creation, preprocessing, transfer learning with ImageNet weights, and evaluation using different decision thresholds. The results show that ConvNeXt-Tiny performs the best overall, achieving the highest F1-score at the optimised threshold and running more efficiently than ViT-Base. This highlights the strength of convolutional models for visual phishing detection and shows why threshold tuning is important for real-world deployment. As future work, the curated dataset used in this study will be released to support reproducibility and encourage further research in this area. Unlike many existing studies that primarily report accuracy, this work places greater emphasis on threshold-aware evaluation to better reflect real-world deployment conditions. By examining precision, recall, and F1-score across different decision thresholds, the study identifies operating points that balance detection performance and false-alarm control. In addition, the side-by-side comparison of ConvNeXt-Tiny and ViT-Base under the same experimental setup offers practical insights into how convolutional and transformer-based architectures differ in robustness and computational efficiency for visual phishing detection.
- Abstract(参考訳): フィッシングウェブサイトは、テキストやURLベースのシステムによる検出を避けるために、視覚的に模倣されたロゴ、類似したレイアウト、およびマッチングカラーに大きく依存している。
本稿では,画像ベースフィッシング検出のためのWebページスクリーンショットを用いた深層学習手法を提案する。
ConvNeXt-Tiny と Vision Transformer (ViT-Base) という2つのビジョンモデルを用いて、視覚的に偽装されたフィッシングページの処理方法の検証を行った。
このフレームワークは、データセットの作成、前処理、ImageNet重み付き転送学習、および異なる決定しきい値を用いた評価をカバーしている。
その結果、ConvNeXt-Tinyは、最適化しきい値において最高F1スコアを達成し、ViT-Baseよりも効率的に動作できることが判明した。
これは、ビジュアルフィッシング検出のための畳み込みモデルの強みを強調し、なぜ閾値チューニングが現実世界のデプロイメントにおいて重要であるかを示す。
今後の研究として、再現性をサポートし、この分野のさらなる研究を促進するために、本研究で使用されるキュレートデータセットがリリースされる予定である。
精度を主に報告する多くの既存の研究とは異なり、この研究は現実の展開条件をよりよく反映するために閾値認識評価に重点を置いている。
精度、リコール、F1スコアを異なる決定しきい値にわたって調べることで、検出性能と偽アラーム制御のバランスをとる操作点を特定する。
さらに、同じ実験環境下でのConvNeXt-TinyとViT-Baseのサイドバイサイド比較は、畳み込みとトランスフォーマーベースのアーキテクチャが、ビジュアルフィッシング検出の堅牢性と計算効率においてどのように異なるかに関する実践的な洞察を提供する。
関連論文リスト
- Visual CoT Makes VLMs Smarter but More Fragile [79.32638667101817]
チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた
Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。
視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
論文 参考訳(メタデータ) (2025-09-28T10:19:59Z) - Edge-Enhanced Vision Transformer Framework for Accurate AI-Generated Image Detection [0.0]
本稿では,視覚変換器(ViT)と新たなエッジベース画像処理モジュールを組み合わせたハイブリッド検出フレームワークを提案する。
提案手法は,自動コンテンツ検証とデジタル法医学における実世界の応用に非常に適している。
論文 参考訳(メタデータ) (2025-08-25T10:30:56Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - FakeFormer: Efficient Vulnerability-Driven Transformers for Generalisable Deepfake Detection [12.594436202557446]
本稿では,視覚変換器(ViT)が顔面偽造検出に最適である理由について検討する。
本稿では, 微妙な不整合情報を抽出するためにViTを拡張したFakeFormerというディープフェイク検出フレームワークを提案する。
FF++、Celeb-DF、WildDeepfake、DFD、DFDCP、DFDCなど、さまざまな有名なデータセットで実験が行われている。
論文 参考訳(メタデータ) (2024-10-29T11:36:49Z) - Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector [24.11167872887211]
Tex-ViT (Texture-Vision Transformer)は、ResNetと視覚変換器を組み合わせることでCNN機能を強化する。
このモデルは従来のResNet機能と、各ダウンサンプリング操作の前にResNetのセクションで並列に動作するテクスチャモジュールを組み合わせる。
これは特に、特徴写像相関を抽出するグローバルテクスチャモジュールの改善に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-29T20:26:27Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。