論文の概要: Redefining Website Fingerprinting Attacks With Multiagent LLMs
- arxiv url: http://arxiv.org/abs/2509.12462v1
- Date: Mon, 15 Sep 2025 21:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.772216
- Title: Redefining Website Fingerprinting Attacks With Multiagent LLMs
- Title(参考訳): マルチエージェントLDMによるWebサイトフィンガープリント攻撃の再定義
- Authors: Chuxu Song, Dheekshith Dev Manohar Mekala, Hao Wang, Richard Martin,
- Abstract要約: Webサイトフィンガープリント(WFP)は、ディープラーニングモデルを使用して、暗号化されたネットワークトラフィックを分類し、訪問したWebサイトを推論する。
本研究は,利用者が同一ウェブサイト上でも非常に多様な行動を示し,個人間で異なる交通パターンを生じさせることを示す。
- 参考スコア(独自算出の注目度): 2.7117643001081437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Website Fingerprinting (WFP) uses deep learning models to classify encrypted network traffic to infer visited websites. While historically effective, prior methods fail to generalize to modern web environments. Single-page applications (SPAs) eliminate the paradigm of websites as sets of discrete pages, undermining page-based classification, and traffic from scripted browsers lacks the behavioral richness seen in real user sessions. Our study reveals that users exhibit highly diverse behaviors even on the same website, producing traffic patterns that vary significantly across individuals. This behavioral entropy makes WFP a harder problem than previously assumed and highlights the need for larger, more diverse, and representative datasets to achieve robust performance. To address this, we propose a new paradigm: we drop session-boundaries in favor of contiguous traffic segments and develop a scalable data generation pipeline using large language models (LLM) agents. These multi-agent systems coordinate decision-making and browser interaction to simulate realistic, persona-driven browsing behavior at 3--5x lower cost than human collection. We evaluate nine state-of-the-art WFP models on traffic from 20 modern websites browsed by 30 real users, and compare training performance across human, scripted, and LLM-generated datasets. All models achieve under 10\% accuracy when trained on scripted traffic and tested on human data. In contrast, LLM-generated traffic boosts accuracy into the 80\% range, demonstrating strong generalization to real-world traces. Our findings indicate that for modern WFP, model performance is increasingly bottlenecked by data quality, and that scalable, semantically grounded synthetic traffic is essential for capturing the complexity of real user behavior.
- Abstract(参考訳): Webサイトフィンガープリント(WFP)は、ディープラーニングモデルを使用して、暗号化されたネットワークトラフィックを分類し、訪問したWebサイトを推論する。
歴史的に有効な方法ではあるが、従来の手法は現代のウェブ環境に一般化できない。
シングルページアプリケーション(SPAs)は、個別ページの集合としてウェブサイトのパラダイムを排除し、ページベースの分類を弱め、スクリプトブラウザからのトラフィックは実際のユーザセッションで見られる振る舞いの豊かさを欠いている。
本研究は,利用者が同一ウェブサイト上でも非常に多様な行動を示し,個人間で異なる交通パターンを生じさせることを示す。
この振る舞いのエントロピーは、WFPを以前想定していたよりも難しい問題にし、堅牢なパフォーマンスを達成するために、より大きく、より多様性があり、代表的なデータセットの必要性を強調している。
そこで我々は,大規模言語モデル (LLM) エージェントを用いた拡張性のあるデータ生成パイプラインを開発した。
これらのマルチエージェントシステムは、リアルでペルソナ駆動のブラウジング動作を、人間のコレクションの3~5倍のコストでシミュレートするために、意思決定とブラウザのインタラクションを調整する。
我々は、30の実際のユーザが閲覧した20のモダンWebサイトからのトラフィックに基づいて9つの最先端WFPモデルを評価し、人間、スクリプト、LLM生成データセット間のトレーニング性能を比較した。
すべてのモデルは、スクリプト化されたトラフィックでトレーニングされ、人間のデータでテストされると、10倍の精度で達成される。
対照的に、LLMの生成したトラフィックは精度を80\%の範囲に押し上げ、現実世界のトレースに対して強力な一般化を示す。
この結果から,最近のWFPでは,データ品質によってモデル性能がボトルネックとなってきており,実際のユーザ行動の複雑さを捉える上では,スケーラブルでセマンティックな合成トラフィックが不可欠であることが示唆された。
関連論文リスト
- WebDS: An End-to-End Benchmark for Web-based Data Science [59.270670758607494]
WebDSは、Webベースの初のエンドツーエンドデータサイエンスベンチマークである。
29のWebサイトにわたる870のWebベースのデータサイエンスタスクで構成されている。
WebDSは、実用的に有用なLCMベースのデータサイエンスの開発において、大きな進歩の舞台となる。
論文 参考訳(メタデータ) (2025-08-02T06:39:59Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-06-13T02:03:22Z) - Lens: A Foundation Model for Network Traffic [19.3652490585798]
Lensは、T5アーキテクチャを活用して、大規模な未ラベルデータから事前訓練された表現を学習するネットワークトラフィックの基礎モデルである。
Masked Span Prediction(MSP)、Packet Order Prediction(POP)、Homologous Traffic Prediction(HTP)の3つの異なるタスクを組み合わせた新しい損失を設計する。
論文 参考訳(メタデータ) (2024-02-06T02:45:13Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。