論文の概要: Classification of URL bitstreams using Bag of Bytes
- arxiv url: http://arxiv.org/abs/2111.06087v1
- Date: Thu, 11 Nov 2021 07:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 15:06:10.381602
- Title: Classification of URL bitstreams using Bag of Bytes
- Title(参考訳): Bag of Bytesを用いたURLビットストリームの分類
- Authors: Keiichi Shima, Daisuke Miyamoto, Hiroshi Abe, Tomohiro Ishihara,
Kazuya Okada, Yuji Sekiya, Hirochika Asai, Yusuke Doi
- Abstract要約: 本稿では,URL文字列から特徴ベクトルを生成するための機械的手法を適用する。
従来のDL法に比べて精度が23%向上した。
- 参考スコア(独自算出の注目度): 3.2204506933585026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protecting users from accessing malicious web sites is one of the important
management tasks for network operators. There are many open-source and
commercial products to control web sites users can access. The most traditional
approach is blacklist-based filtering. This mechanism is simple but not
scalable, though there are some enhanced approaches utilizing fuzzy matching
technologies. Other approaches try to use machine learning (ML) techniques by
extracting features from URL strings. This approach can cover a wider area of
Internet web sites, but finding good features requires deep knowledge of trends
of web site design. Recently, another approach using deep learning (DL) has
appeared. The DL approach will help to extract features automatically by
investigating a lot of existing sample data. Using this technique, we can build
a flexible filtering decision module by keep teaching the neural network module
about recent trends, without any specific expert knowledge of the URL domain.
In this paper, we apply a mechanical approach to generate feature vectors from
URL strings. We implemented our approach and tested with realistic URL access
history data taken from a research organization and data from the famous
archive site of phishing site information, PhishTank.com. Our approach achieved
2~3% better accuracy compared to the existing DL-based approach.
- Abstract(参考訳): 悪意のあるWebサイトにアクセスするユーザを保護することは、ネットワークオペレータにとって重要な管理タスクのひとつだ。
アクセス可能なWebサイトを制御するオープンソースや商用製品は数多くある。
最も伝統的なアプローチはブラックリストベースのフィルタリングである。
このメカニズムは単純だが拡張性はないが、ファジィマッチング技術を利用したいくつかの改良されたアプローチがある。
他のアプローチでは、URL文字列から機能を抽出することで、機械学習(ML)技術の使用を試みる。
このアプローチは、インターネットWebサイトの広い範囲をカバーすることができるが、優れた機能を見つけるには、Webサイト設計のトレンドに関する深い知識が必要である。
近年,Deep Learning (DL) を用いた別のアプローチが出現している。
dlアプローチは、既存の多くのサンプルデータを調べることによって、自動的に機能を抽出するのに役立つ。
この技術を用いることで、ニューラルネットワークモジュールに最近のトレンドを教え続けることで、URLドメインに関する特別な知識を必要とせずに、フレキシブルなフィルタリング決定モジュールを構築することができる。
本稿では,URL文字列から特徴ベクトルを生成するための機械的手法を適用する。
提案手法を実装し,研究機関から取得した現実的なURLアクセス履歴データと,フィッシングサイト情報の有名なアーカイブサイトであるPhishTank.comから取得したデータを用いて検証を行った。
従来のDL法に比べて2~3%精度が向上した。
関連論文リスト
- Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - CRATOR: a Dark Web Crawler [1.7224362150588657]
本研究では,キャプチャなどのセキュリティプロトコルを扱うページを抽出するための一般的なダークウェブクローラを提案する。
我々のアプローチでは、シードURLリスト、リンク分析、スキャンを組み合わせて新しいコンテンツを見つけます。
論文 参考訳(メタデータ) (2024-05-10T09:39:12Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Learning to Identify Critical States for Reinforcement Learning from
Videos [55.75825780842156]
優れたポリシに関するアルゴリズム情報は、実行されたアクションに関する明示的な情報を持たないオフラインデータから抽出することができる。
例えば、人間やロボットのビデオは、アクションシーケンスに対する報酬に関する暗黙の情報を多く伝達することができる。
このようなビデオを見て利益を得たいDRLマシンは、まず、関連する状態/アクション/リワードを識別し、認識するために、自分で学習する必要がある。
論文 参考訳(メタデータ) (2023-08-15T14:21:24Z) - Many or Few Samples? Comparing Transfer, Contrastive and Meta-Learning
in Encrypted Traffic Classification [68.19713459228369]
我々は、トランスファーラーニング、メタラーニング、コントラストラーニングを、参照機械学習(ML)ツリーベースおよびモノリシックDLモデルと比較する。
i) 大規模なデータセットを用いて,より一般的な表現を得られること,(ii) コントラスト学習が最良の手法であることを示している。
MLツリーベースでは大きなタスクは処理できないが、学習した表現を再利用することで、小さなタスクにも適合するが、DLメソッドはツリーベースモデルのパフォーマンスにも到達している。
論文 参考訳(メタデータ) (2023-05-21T11:20:49Z) - Web Content Filtering through knowledge distillation of Large Language
Models [1.7446104539598901]
LLM(Large Language Models)のパワーを活用したURL分類のための最先端のアプローチを提案する。
提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, ウェブコンテンツフィルタリングに適した, より小型で専門的な学生モデルを作成する。
我々の学生モデルは教師のLLMのパフォーマンスを175倍のパラメータで比較し、大量のURLのインラインスキャンに使用することができる。
論文 参考訳(メタデータ) (2023-05-08T20:09:27Z) - An Adversarial Attack Analysis on Malicious Advertisement URL Detection
Framework [22.259444589459513]
悪意のある広告URLは、サイバー攻撃の源泉であるため、セキュリティ上のリスクをもたらす。
既存の悪意のあるURL検出技術は制限されており、見えない機能やテストデータの一般化を扱うことができる。
本研究では,新しい語彙・ウェブスクラップ機能群を抽出し,機械学習技術を用いて不正広告URL検出システムを構築する。
論文 参考訳(メタデータ) (2022-04-27T20:06:22Z) - PhishMatch: A Layered Approach for Effective Detection of Phishing URLs [8.658596218544774]
We present a layered anti-phishing defense, PhishMatch, which is robust, accurate, expensive, and client-side。
Chromeブラウザ用に開発されたPhishMatchのプロトタイププラグインは、高速で軽量であることが判明した。
論文 参考訳(メタデータ) (2021-12-04T03:21:29Z) - Masked LARk: Masked Learning, Aggregation and Reporting worKflow [6.484847460164177]
多くのWeb広告データフローは、ユーザの受動的クロスサイト追跡を含む。
ほとんどのブラウザは、その後のブラウザイテレーションで3PCの削除に向かっている。
本稿では,ユーザエンゲージメント測定とモデルトレーニングの集約を目的としたMasked LARkという新しい提案を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:59:37Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。