論文の概要: Fingerprinting web servers through Transformer-encoded HTTP response headers
- arxiv url: http://arxiv.org/abs/2404.00056v1
- Date: Tue, 26 Mar 2024 17:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-07 23:07:46.854391
- Title: Fingerprinting web servers through Transformer-encoded HTTP response headers
- Title(参考訳): TransformerエンコードHTTPレスポンスヘッダによるWebサーバのフィンガープリント
- Authors: Patrick Darwinkel,
- Abstract要約: 最先端のディープラーニング、ビッグデータ、自然言語処理を活用して、脆弱なWebサーババージョンの検出を強化しています。
我々は、さまざまな曖昧で非標準のHTTPリクエストを477万のドメインに送信して実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We explored leveraging state-of-the-art deep learning, big data, and natural language processing to enhance the detection of vulnerable web server versions. Focusing on improving accuracy and specificity over rule-based systems, we conducted experiments by sending various ambiguous and non-standard HTTP requests to 4.77 million domains and capturing HTTP response status lines. We represented these status lines through training a BPE tokenizer and RoBERTa encoder for unsupervised masked language modeling. We then dimensionality reduced and concatenated encoded response lines to represent each domain's web server. A Random Forest and multilayer perceptron (MLP) classified these web servers, and achieved 0.94 and 0.96 macro F1-score, respectively, on detecting the five most popular origin web servers. The MLP achieved a weighted F1-score of 0.55 on classifying 347 major type and minor version pairs. Analysis indicates that our test cases are meaningful discriminants of web server types. Our approach demonstrates promise as a powerful and flexible alternative to rule-based systems.
- Abstract(参考訳): 我々は、最先端のディープラーニング、ビッグデータ、自然言語処理を活用して、脆弱なWebサーババージョンの検出を強化することを検討した。
ルールベースシステムに対する精度と特異性の改善に焦点をあてて、さまざまな曖昧で非標準のHTTPリクエストを477万のドメインに送信し、HTTPレスポンスステータスラインをキャプチャして実験を行った。
BPEトークンとRoBERTaエンコーダを教師なしマスキング言語モデリングのためにトレーニングすることで,これらのステータスラインを表現した。
次に、各ドメインのWebサーバを表すために、デメンタリティを減らし、コード化されたレスポンスラインを連結する。
ランダムフォレストと多層パーセプトロン(MLP)はこれらのウェブサーバを分類し、それぞれ0.94と0.96のマクロF1スコアを達成した。
MLPは、重み付きF1スコアを0.55で達成し、347のメジャータイプとマイナーバージョンを分類した。
分析は、我々のテストケースがWebサーバタイプの意味のある差別であることを示している。
私たちのアプローチは、ルールベースのシステムに対する強力で柔軟な代替手段としての可能性を実証しています。
関連論文リスト
- AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Beyond the Request: Harnessing HTTP Response Headers for Cross-Browser Web Tracker Classification in an Imbalanced Setting [0.0]
本研究は、二項化HTTP応答ヘッダを用いたWebトラッカー検出のための効果的な機械学習分類器を設計する試みである。
10の教師付きモデルがChromeデータ上でトレーニングされ、1年後のChromeデータセットを含むすべてのブラウザでテストされた。
結果は、ChromeとFirefoxで高い精度、F1スコア、精度、リコール、最小ログロスエラーを示した。
論文 参考訳(メタデータ) (2024-02-02T09:07:09Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - HTTP2vec: Embedding of HTTP Requests for Detection of Anomalous Traffic [0.0]
我々は、HTTPリクエストを埋め込んだ後、トラフィックの異常を分類するための教師なし言語表現モデルを提案する。
このソリューションはDoc2Vecのような自然言語処理(NLP)で使われる手法によって動機付けられている。
実際の単語条件でどのようにソリューションが機能するかを検証するために、正規のトラフィックのみを使用してモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-08-03T21:53:31Z) - Ensemble-based Feature Selection and Classification Model for DNS
Typo-squatting Detection [5.785697934050654]
タイポスクワット(タイポスクワット)とは、既存の人気ブランドと非常に類似したドメイン名の登録のこと。
本稿では,DNS型スワーミング攻撃を検出するために,アンサンブルに基づく特徴選択とバッジ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-06-08T14:07:19Z) - A Cross-Genre Ensemble Approach to Robust Reddit Part of Speech Tagging [10.609715843964263]
本研究では,異なるジャンルでトレーニングされた最先端のタグ付けモデルが,未フィルタリングRedditフォーラムの議論からWebコンテンツ上でどのように機能するかを検討する。
この結果から,少数のドメイン内データであっても,他のWebドメインからのデータのコントリビューションよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-29T16:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。