論文の概要: Web Execution Bundles: Reproducible, Accurate, and Archivable Web Measurements
- arxiv url: http://arxiv.org/abs/2501.15911v2
- Date: Thu, 30 Jan 2025 13:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 11:52:45.096397
- Title: Web Execution Bundles: Reproducible, Accurate, and Archivable Web Measurements
- Title(参考訳): Web Execution Bundles: 再現可能、正確、そしてアーカイブ可能なWeb測定
- Authors: Florian Hantke, Peter Snyder, Hamed Haddadi, Ben Stock,
- Abstract要約: WebRECは,現在の最先端の精度と比較したWeb測定ツールである。
我々はまた、幅広いWebサイト行動の正確かつ再現可能な測定のためのアーカイブフォーマットである.webを提示する。
- 参考スコア(独自算出の注目度): 19.206163760875903
- License:
- Abstract: Recently, reproducibility has become a cornerstone in the security and privacy research community, including artifact evaluations and even a new symposium topic. However, Web measurements lack tools that can be reused across many measurement tasks without modification, while being robust to circumvention, and accurate across the wide range of behaviors in the Web. As a result, most measurement studies use custom tools and varied archival formats, each of unknown correctness and significant limitations, systematically affecting the research's accuracy and reproducibility. To address these limitations, we present WebREC, a Web measurement tool that is, compared against the current state-of-the-art, accurate (i.e., correctly measures and attributes events not possible with existing tools), general (i.e., reusable without modification for a broad range of measurement tasks), and comprehensive (i.e., handling events from all relevant browser behaviors). We also present .web, an archival format for the accurate and reproducible measurement of a wide range of website behaviors. We empirically evaluate WebREC's accuracy by replicating well-known Web measurement studies and showing that WebREC's results more accurately match our baseline. We then assess if WebREC and .web succeed as general-purpose tools, which could be used to accomplish many Web measurement tasks without modification. We find that this is so: 70% of papers discussed in a 2024 web crawling SoK paper could be conducted using WebREC as is, and a larger number (48%) could be leveraged against .web archives without requiring any new crawling.
- Abstract(参考訳): 近年、再現性は、アーティファクト評価や新しいシンポジウムトピックを含む、セキュリティとプライバシ研究のコミュニティの基盤となっている。
しかし、Web測定には、修正することなく多くの測定タスクで再利用できるツールが欠けている。
その結果、ほとんどの測定研究では、未知の正確さと重要な制限のそれぞれが、研究の正確さと再現性に体系的に影響を及ぼす、カスタムツールと様々なアーカイブフォーマットを使用している。
これらの制限に対処するため、WebRECは、現在の最先端、正確な(既存のツールでは不可能なイベントの正確な測定と属性)、一般的な(広範囲の計測タスクを変更せずに再利用)、包括的な(ブラウザのすべての振る舞いからイベントを処理する)Web測定ツールである。
にも登場している。
Webは、様々なウェブサイトの行動の正確かつ再現可能な測定のためのアーカイブフォーマットです。
我々は、WebRECの精度をよく知られたWeb測定結果の複製により実証的に評価し、WebRECの結果が我々の基準値とより正確に一致することを示す。
次に、WebREC と .NET を評価します。
Webは汎用ツールとして成功し、多くのWeb計測タスクを変更せずに実行することができる。
2024年のWebクローリングSoKペーパーで議論された論文の70%は、WebRECを使って行うことができ、さらに多くの(48%)が.NETに対して利用することができる。
新しいクロールを必要とせずにウェブアーカイブを作成。
関連論文リスト
- WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z) - MRWeb: An Exploration of Generating Multi-Page Resource-Aware Web Code from UI Designs [50.274447094978996]
マルチページリソース対応Webページ(MRWeb)生成タスクは、UIデザインをマルチページ、内部/外部ナビゲーション、イメージローディング、バックエンドルーティングを備えた機能的なWebUIに変換する。
本稿では,500のWebサイト(300の合成,200の現実世界)を新たにキュレートしたデータセットを用いて既存のMRWeb問題に適用する。特に,Web UIの類似性を評価し,MRWeb生成に対するリソースリストの影響を評価し,MLLMの制約を分析し,MRWebツールの有効性を評価する。
論文 参考訳(メタデータ) (2024-12-19T15:02:33Z) - Beyond time delays: How web scraping distorts measures of online news consumption [0.4706932040794696]
ユーザのWebサイト(in-situ)との直接対話中に得られるコンテンツと、参加者のログインした訪問先(ex-situ)のURLを様々な時間遅延でスクラップしたコンテンツとの相違について検討した。
その結果,誤差がニュースカテゴリーに均一に分散されていないことが判明した。
本研究では,ユーザの環境下で直接Webコンテンツをキャプチャするデータ収集手法の必要性を強調した。
論文 参考訳(メタデータ) (2024-11-30T13:36:48Z) - WebCanvas: Benchmarking Web Agents in Online Environments [29.278363444725628]
WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。
我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。
ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
論文 参考訳(メタデータ) (2024-06-18T07:58:33Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - Neural Embeddings for Web Testing [49.66745368789056]
既存のクローラは、状態等価性を評価するために、アプリ固有のしきい値ベースのアルゴリズムに依存している。
ニューラルネットワークの埋め込みとしきい値のない分類器に基づく新しい抽象関数WEBEMBEDを提案する。
WEBEMBEDは,9つのWebアプリケーションに対する評価の結果,近距離検出により最先端技術よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-06-12T19:59:36Z) - Layout-aware Webpage Quality Assessment [31.537331183733837]
本稿では,現在サーチエンジンに実装されているレイアウト対応ウェブページ品質評価モデルを提案する。
我々は、Webページ、すなわちドキュメントオブジェクトモデル(DOM)ツリーを記述するメタデータをモデルの入力として使用します。
複雑なDOMツリーデータからWebページの品質を評価するために,グラフニューラルネットワーク(GNN)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。