論文の概要: Beyond the Request: Harnessing HTTP Response Headers for Cross-Browser Web Tracker Classification in an Imbalanced Setting
- arxiv url: http://arxiv.org/abs/2402.01240v2
- Date: Tue, 16 Jul 2024 07:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 23:30:59.740540
- Title: Beyond the Request: Harnessing HTTP Response Headers for Cross-Browser Web Tracker Classification in an Imbalanced Setting
- Title(参考訳): リクエストを超えて: ブラウザ間のWebトラッカー分類のためのHTTPレスポンスヘッダを不均衡に設定する
- Authors: Wolf Rieder, Philip Raschke, Thomas Cory,
- Abstract要約: 本研究は、二項化HTTP応答ヘッダを用いたWebトラッカー検出のための効果的な機械学習分類器を設計する試みである。
10の教師付きモデルがChromeデータ上でトレーニングされ、1年後のChromeデータセットを含むすべてのブラウザでテストされた。
結果は、ChromeとFirefoxで高い精度、F1スコア、精度、リコール、最小ログロスエラーを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The World Wide Web's connectivity is greatly attributed to the HTTP protocol, with HTTP messages offering informative header fields that appeal to disciplines like web security and privacy, especially concerning web tracking. Despite existing research employing HTTP request messages to identify web trackers, HTTP response headers are often overlooked. This study endeavors to design effective machine learning classifiers for web tracker detection using binarized HTTP response headers. Data from the Chrome, Firefox, and Brave browsers, obtained through the traffic monitoring browser extension T.EX, serves as our dataset. Ten supervised models were trained on Chrome data and tested across all browsers, including a Chrome dataset from a year later. The results demonstrated high accuracy, F1-score, precision, recall, and minimal log-loss error for Chrome and Firefox, but subpar performance on Brave, potentially due to its distinct data distribution and feature set. The research suggests that these classifiers are viable for web tracker detection. However, real-world application testing remains pending, and the distinction between tracker types and broader label sources could be explored in future studies.
- Abstract(参考訳): World Wide Webの接続性はHTTPプロトコルに大きく影響しており、HTTPメッセージはWebセキュリティやプライバシ、特にWebトラッキングに関する規律に訴える情報的ヘッダフィールドを提供する。
既存の調査では、Webトラッカーを特定するためにHTTPリクエストメッセージを使用しているが、HTTPレスポンスヘッダはしばしば見過ごされている。
本研究は、二項化HTTP応答ヘッダを用いたWebトラッカー検出のための効果的な機械学習分類器を設計する試みである。
トラフィック監視ブラウザエクステンションであるT.EXを通じて得られたChrome、Firefox、Braveブラウザのデータは、私たちのデータセットとして役立ちます。
10の教師付きモデルがChromeデータ上でトレーニングされ、1年後のChromeデータセットを含むすべてのブラウザでテストされた。
結果は、ChromeとFirefoxで高い精度、F1スコア、精度、リコール、最小ログロスエラーを示したが、Braveのデータ分散と機能セットが異なるため、Braveのパフォーマンスは低い。
その結果,これらの分類器はWebトラッカー検出に有効であることが示唆された。
しかし、現実のアプリケーションテストはまだ進行中であり、トラッカータイプとより広範なラベルソースの区別は今後の研究で検討される可能性がある。
関連論文リスト
- ChatHTTPFuzz: Large Language Model-Assisted IoT HTTP Fuzzing [18.095573835226787]
Internet of Things(IoT)デバイスは、Webインターフェース、Web VPN、その他のWebベースのサービスを通じて利便性を提供し、すべてHTTPプロトコルに依存している。
最先端のツールの多くは依然としてランダムな突然変異戦略に依存しており、HTTPプロトコルの構造を正確に理解し、多くの無効なテストケースを生成するのが困難である。
本稿では,プロトコルフィールドを自動的に解析し,サービスコードロジックを解析してプロトコル準拠のテストケースを生成する,新たなLLM誘導型IoT HTTPファジリング手法ChatHTTPFuzzを提案する。
論文 参考訳(メタデータ) (2024-11-18T10:48:53Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - How Unique is Whose Web Browser? The role of demographics in browser fingerprinting among US users [50.699390248359265]
ブラウザのフィンガープリントは、クッキーを使わずとも、Web上のユーザを識別し、追跡するために利用できる。
この技術と結果として生じるプライバシーリスクは10年以上にわたって研究されてきた。
我々は、さらなる研究を可能にするファースト・オブ・ザ・キンド・データセットを提供する。
論文 参考訳(メタデータ) (2024-10-09T14:51:58Z) - The HTTP Garden: Discovering Parsing Vulnerabilities in HTTP/1.1 Implementations by Differential Fuzzing of Request Streams [7.012240324005978]
HTTP/1.1で不一致を解析することは、Webサーバに対する数多くの攻撃の基盤となっている。
我々のシステムであるHTTP Gardenは、元のサーバの解釈とHTTPリクエストのゲートウェイサーバの変換の両方を調べます。
私たちのツールを使って、人気のあるWebサーバで100以上のHTTPパースバグを発見し、報告しました。
論文 参考訳(メタデータ) (2024-05-28T01:48:05Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Fingerprinting web servers through Transformer-encoded HTTP response headers [0.0]
最先端のディープラーニング、ビッグデータ、自然言語処理を活用して、脆弱なWebサーババージョンの検出を強化しています。
我々は、さまざまな曖昧で非標準のHTTPリクエストを477万のドメインに送信して実験を行った。
論文 参考訳(メタデータ) (2024-03-26T17:24:28Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - HTTP2vec: Embedding of HTTP Requests for Detection of Anomalous Traffic [0.0]
我々は、HTTPリクエストを埋め込んだ後、トラフィックの異常を分類するための教師なし言語表現モデルを提案する。
このソリューションはDoc2Vecのような自然言語処理(NLP)で使われる手法によって動機付けられている。
実際の単語条件でどのようにソリューションが機能するかを検証するために、正規のトラフィックのみを使用してモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-08-03T21:53:31Z) - A machine learning approach for detecting CNAME cloaking-based tracking
on the Web [2.7267622401439255]
オンデマンドDNSルックアップAPIを使わずに,マシンクローキングに基づくトラッキングを検出するための教師付き学習ベース手法を提案する。
私たちの目標は、クローキング関連のトラッキングに関連するサイトとリクエストの両方を検出することです。
評価の結果,提案手法はよく知られた追跡フィルタよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-29T22:33:19Z) - High-Performance Long-Term Tracking with Meta-Updater [75.80564183653274]
短期的追跡よりも実用的に近いため、長期的視覚追跡が注目されている。
ほとんどのトップランクの長期トラッカーはオフラインでトレーニングされたSiameseアーキテクチャを採用しているため、オンライン更新による短期トラッカーの大きな進歩の恩恵を受けることはできない。
我々は、重要な問題に対処するために、オフラインでトレーニングされた新しいメタ更新器を提案する: トラッカーは、現在のフレームで更新する準備ができているか?
論文 参考訳(メタデータ) (2020-04-01T09:29:23Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。