論文の概要: Web Execution Bundles: Reproducible, Accurate, and Archivable Web Measurements
- arxiv url: http://arxiv.org/abs/2501.15911v1
- Date: Mon, 27 Jan 2025 10:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:53:32.755574
- Title: Web Execution Bundles: Reproducible, Accurate, and Archivable Web Measurements
- Title(参考訳): Web Execution Bundles: 再現可能、正確、そしてアーカイブ可能なWeb測定
- Authors: Florian Hantke, Peter Snyder, Hamed Haddadi, Ben Stock,
- Abstract要約: WebRECは,現在の最先端の精度と比較したWeb測定ツールである。
我々はまた、幅広いWebサイト行動の正確かつ再現可能な測定のためのアーカイブフォーマットである.webを提示する。
- 参考スコア(独自算出の注目度): 19.206163760875903
- License:
- Abstract: Recently, reproducibility has become a cornerstone in the security and privacy research community, including artifact evaluations and even a new symposium topic. However, Web measurements lack tools that can be reused across many measurement tasks without modification, while being robust to circumvention, and accurate across the wide range of behaviors in the Web. As a result, most measurement studies use custom tools and varied archival formats, each of unknown correctness and significant limitations, systematically affecting the research's accuracy and reproducibility. To address these limitations, we present WebREC, a Web measurement tool that is, compared against the current state-of-the-art, accurate (i.e., correctly measures and attributes events not possible with existing tools), general (i.e., reusable without modification for a broad range of measurement tasks), and comprehensive (i.e., handling events from all relevant browser behaviors). We also present .web, an archival format for the accurate and reproducible measurement of a wide range of website behaviors. We empirically evaluate WebREC's accuracy by replicating well-known Web measurement studies and showing that WebREC's results more accurately match our baseline. We then assess if WebREC and .web succeed as general-purpose tools, which could be used to accomplish many Web measurement tasks without modification. We find that this is so: 70% of papers discussed in a 2024 web crawling SoK paper could be conducted using WebREC as is, and a larger number (48%) could be leveraged against .web archives without requiring any new crawling.
- Abstract(参考訳): 近年、再現性は、アーティファクト評価や新しいシンポジウムトピックを含む、セキュリティとプライバシ研究のコミュニティの基盤となっている。
しかし、Web測定には、修正することなく多くの測定タスクで再利用できるツールが欠けている。
その結果、ほとんどの測定研究では、未知の正確さと重要な制限のそれぞれが、研究の正確さと再現性に体系的に影響を及ぼす、カスタムツールと様々なアーカイブフォーマットを使用している。
これらの制限に対処するため、WebRECは、現在の最先端、正確な(既存のツールでは不可能なイベントの正確な測定と属性)、一般的な(広範囲の計測タスクを変更せずに再利用)、包括的な(ブラウザのすべての振る舞いからイベントを処理する)Web測定ツールである。
にも登場している。
Webは、様々なウェブサイトの行動の正確かつ再現可能な測定のためのアーカイブフォーマットです。
我々は、WebRECの精度をよく知られたWeb測定結果の複製により実証的に評価し、WebRECの結果が我々の基準値とより正確に一致することを示す。
次に、WebREC と .NET を評価します。
Webは汎用ツールとして成功し、多くのWeb計測タスクを変更せずに実行することができる。
2024年のWebクローリングSoKペーパーで議論された論文の70%は、WebRECを使って行うことができ、さらに多くの(48%)が.NETに対して利用することができる。
新しいクロールを必要とせずにウェブアーカイブを作成。
関連論文リスト
- WebCanvas: Benchmarking Web Agents in Online Environments [29.278363444725628]
WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。
我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。
ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
論文 参考訳(メタデータ) (2024-06-18T07:58:33Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - Assessing Web Fingerprinting Risk [2.144574168644798]
ブラウザー指紋(Browser fingerprints)は、クッキーが無効になってもユーザーの秘密の追跡を可能にするデバイス固有の識別子である。
これまでの研究は、指紋認証のリスクを定量化するための鍵となる指標として、情報の尺度であるエントロピーを確立してきた。
我々は,先行作業の限界に対処するブラウザのフィンガープリントについて,最初の研究を行った。
論文 参考訳(メタデータ) (2024-03-22T20:34:41Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Neural Embeddings for Web Testing [49.66745368789056]
既存のクローラは、状態等価性を評価するために、アプリ固有のしきい値ベースのアルゴリズムに依存している。
ニューラルネットワークの埋め込みとしきい値のない分類器に基づく新しい抽象関数WEBEMBEDを提案する。
WEBEMBEDは,9つのWebアプリケーションに対する評価の結果,近距離検出により最先端技術よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-06-12T19:59:36Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Layout-aware Webpage Quality Assessment [31.537331183733837]
本稿では,現在サーチエンジンに実装されているレイアウト対応ウェブページ品質評価モデルを提案する。
我々は、Webページ、すなわちドキュメントオブジェクトモデル(DOM)ツリーを記述するメタデータをモデルの入力として使用します。
複雑なDOMツリーデータからWebページの品質を評価するために,グラフニューラルネットワーク(GNN)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:27:53Z) - Web Routineness and Limits of Predictability: Investigating Demographic
and Behavioral Differences Using Web Tracking Data [0.24499092754102877]
これらの反復的なWeb訪問パターンは、閲覧行動の達成可能な予測可能性を高める。
ウェブ上での人体移動の予測可能性の不確実性と理論的限界を測定するための情報理論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-30T11:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。