論文の概要: Fingerprinting web servers through Transformer-encoded HTTP response   headers
        - arxiv url: http://arxiv.org/abs/2404.00056v1
- Date: Tue, 26 Mar 2024 17:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-07 23:07:46.854391
- Title: Fingerprinting web servers through Transformer-encoded HTTP response   headers
- Title(参考訳): TransformerエンコードHTTPレスポンスヘッダによるWebサーバのフィンガープリント
- Authors: Patrick Darwinkel, 
- Abstract要約: 最先端のディープラーニング、ビッグデータ、自然言語処理を活用して、脆弱なWebサーババージョンの検出を強化しています。
我々は、さまざまな曖昧で非標準のHTTPリクエストを477万のドメインに送信して実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract:   We explored leveraging state-of-the-art deep learning, big data, and natural language processing to enhance the detection of vulnerable web server versions. Focusing on improving accuracy and specificity over rule-based systems, we conducted experiments by sending various ambiguous and non-standard HTTP requests to 4.77 million domains and capturing HTTP response status lines. We represented these status lines through training a BPE tokenizer and RoBERTa encoder for unsupervised masked language modeling. We then dimensionality reduced and concatenated encoded response lines to represent each domain's web server. A Random Forest and multilayer perceptron (MLP) classified these web servers, and achieved 0.94 and 0.96 macro F1-score, respectively, on detecting the five most popular origin web servers. The MLP achieved a weighted F1-score of 0.55 on classifying 347 major type and minor version pairs. Analysis indicates that our test cases are meaningful discriminants of web server types. Our approach demonstrates promise as a powerful and flexible alternative to rule-based systems. 
- Abstract(参考訳): 我々は、最先端のディープラーニング、ビッグデータ、自然言語処理を活用して、脆弱なWebサーババージョンの検出を強化することを検討した。
ルールベースシステムに対する精度と特異性の改善に焦点をあてて、さまざまな曖昧で非標準のHTTPリクエストを477万のドメインに送信し、HTTPレスポンスステータスラインをキャプチャして実験を行った。
BPEトークンとRoBERTaエンコーダを教師なしマスキング言語モデリングのためにトレーニングすることで,これらのステータスラインを表現した。
次に、各ドメインのWebサーバを表すために、デメンタリティを減らし、コード化されたレスポンスラインを連結する。
ランダムフォレストと多層パーセプトロン(MLP)はこれらのウェブサーバを分類し、それぞれ0.94と0.96のマクロF1スコアを達成した。
MLPは、重み付きF1スコアを0.55で達成し、347のメジャータイプとマイナーバージョンを分類した。
分析は、我々のテストケースがWebサーバタイプの意味のある差別であることを示している。
私たちのアプローチは、ルールベースのシステムに対する強力で柔軟な代替手段としての可能性を実証しています。
 
      
        関連論文リスト
        - WebGuard++:Interpretable Malicious URL Detection via Bidirectional   Fusion of HTML Subgraphs and Multi-Scale Convolutional BERT [3.6220178465092503]
 URL+ HTML機能融合は、攻撃者のアーティファクトがDOM構造に持続するため、堅牢な悪意のあるURL検出を約束する。
4つの新しいコンポーネントを持つ検出フレームワークであるWebGuard++を紹介します。
実験によると、WebGuard++は最先端のベースラインよりも大幅に改善されている。
 論文  参考訳(メタデータ) (2025-06-24T06:36:51Z)
- Streamlining HTTP Flooding Attack Detection through Incremental Feature   Selection [0.3277163122167433]
 本稿では,そのような攻撃を検知する手法を提案する。
INFS-MICCは、非常に関連性が高く独立した機能サブセットのサブセットを特定するのに役立つ。
 論文  参考訳(メタデータ) (2025-05-20T06:19:03Z)
- Training Large Language Models for Advanced Typosquatting Detection [0.0]
 Typosquattingは、ユーザーを騙し、マルウェアを配布し、フィッシング攻撃を行うためにURLをタイプする際のヒューマンエラーを利用するサイバー脅威である。
本研究では,大型言語モデル (LLM) を利用したタイポスクワット検出手法を提案する。
実験結果から, Phi-4 14Bモデルは他の試験モデルよりも優れており, 精度は98%, トレーニングサンプルは数千点であった。
 論文  参考訳(メタデータ) (2025-03-28T13:16:27Z)
- ChatHTTPFuzz: Large Language Model-Assisted IoT HTTP Fuzzing [18.095573835226787]
 Internet of Things(IoT)デバイスは、Webインターフェース、Web VPN、その他のWebベースのサービスを通じて利便性を提供し、すべてHTTPプロトコルに依存している。
最先端のツールの多くは依然としてランダムな突然変異戦略に依存しており、HTTPプロトコルの構造を正確に理解し、多くの無効なテストケースを生成するのが困難である。
本稿では,プロトコルフィールドを自動的に解析し,サービスコードロジックを解析してプロトコル準拠のテストケースを生成する,新たなLLM誘導型IoT HTTPファジリング手法ChatHTTPFuzzを提案する。
 論文  参考訳(メタデータ) (2024-11-18T10:48:53Z)
- AutoScraper: A Progressive Understanding Web Agent for Web Scraper   Generation [54.17246674188208]
 Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
 論文  参考訳(メタデータ) (2024-04-19T09:59:44Z)
- Beyond the Request: Harnessing HTTP Response Headers for Cross-Browser   Web Tracker Classification in an Imbalanced Setting [0.0]
 本研究は、二項化HTTP応答ヘッダを用いたWebトラッカー検出のための効果的な機械学習分類器を設計する試みである。
10の教師付きモデルがChromeデータ上でトレーニングされ、1年後のChromeデータセットを含むすべてのブラウザでテストされた。
結果は、ChromeとFirefoxで高い精度、F1スコア、精度、リコール、最小ログロスエラーを示した。
 論文  参考訳(メタデータ) (2024-02-02T09:07:09Z)
- WebVoyager: Building an End-to-End Web Agent with Large Multimodal   Models [65.18602126334716]
 既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
 論文  参考訳(メタデータ) (2024-01-25T03:33:18Z)
- PMANet: Malicious URL detection via post-trained language model guided   multi-level feature attention network [16.73322002436809]
 PMANetは,事前学習型言語モデル誘導型マルチレベル特徴注意ネットワークである。
PMANetは、マスク付き言語モデリング、ノイズの多い言語モデリング、ドメイン識別という、3つの自己組織化された目標を持つポストトレーニングプロセスを採用している。
小規模データ、クラス不均衡、敵攻撃を含む様々なシナリオの実験は、PMANetが最先端モデルよりも優れていることを示す。
 論文  参考訳(メタデータ) (2023-11-21T06:23:08Z)
- A Real-World WebAgent with Planning, Long Context Understanding, and
  Program Synthesis [69.15016747150868]
 本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
 論文  参考訳(メタデータ) (2023-07-24T14:56:30Z)
- Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
 視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
 論文  参考訳(メタデータ) (2023-05-19T17:44:34Z)
- Understanding HTML with Large Language Models [73.92747433749271]
 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
 論文  参考訳(メタデータ) (2022-10-08T07:27:17Z)
- A New Generation of Perspective API: Efficient Multilingual
  Character-level Transformers [66.9176610388952]
 Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
 論文  参考訳(メタデータ) (2022-02-22T20:55:31Z)
- HTTP2vec: Embedding of HTTP Requests for Detection of Anomalous Traffic [0.0]
 我々は、HTTPリクエストを埋め込んだ後、トラフィックの異常を分類するための教師なし言語表現モデルを提案する。
このソリューションはDoc2Vecのような自然言語処理(NLP)で使われる手法によって動機付けられている。
実際の単語条件でどのようにソリューションが機能するかを検証するために、正規のトラフィックのみを使用してモデルをトレーニングする。
 論文  参考訳(メタデータ) (2021-08-03T21:53:31Z)
- A Cross-Genre Ensemble Approach to Robust Reddit Part of Speech Tagging [10.609715843964263]
 本研究では,異なるジャンルでトレーニングされた最先端のタグ付けモデルが,未フィルタリングRedditフォーラムの議論からWebコンテンツ上でどのように機能するかを検討する。
この結果から,少数のドメイン内データであっても,他のWebドメインからのデータのコントリビューションよりも優れていることがわかった。
 論文  参考訳(メタデータ) (2020-04-29T16:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
       
     
      指定された論文の情報です。
      本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。