論文の概要: HDNA: A graph-based change detection in HTML pages(Deface Attack
Detection)
- arxiv url: http://arxiv.org/abs/2310.03891v1
- Date: Thu, 5 Oct 2023 20:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 04:24:12.853500
- Title: HDNA: A graph-based change detection in HTML pages(Deface Attack
Detection)
- Title(参考訳): hdna:htmlページにおけるグラフに基づく変更検出(deface attack detection)
- Authors: Mahdi Akhi, Nona Ghazizadeh
- Abstract要約: HDNA(HTML DNA)は、ドキュメントオブジェクトモデル(DOM)ツリーの解析と比較のために導入された。
メソッドはその構造に基づいて各HTMLページに識別子を割り当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, a new approach called HDNA (HTML DNA) is introduced for
analyzing and comparing Document Object Model (DOM) trees in order to detect
differences in HTML pages. This method assigns an identifier to each HTML page
based on its structure, which proves to be particularly useful for detecting
variations caused by server-side updates, user interactions or potential
security risks. The process involves preprocessing the HTML content generating
a DOM tree and calculating the disparities between two or more trees. By
assigning weights to the nodes valuable insights about their hierarchical
importance are obtained. The effectiveness of the HDNA approach has been
demonstrated in identifying changes in DOM trees even when dynamically
generated content is involved. Not does this method benefit web developers,
testers, and security analysts by offering a deeper understanding of how web
pages evolve. It also helps ensure the functionality and performance of web
applications. Additionally, it enables detection and response to
vulnerabilities that may arise from modifications in DOM structures. As the web
ecosystem continues to evolve HDNA proves to be a tool, for individuals engaged
in web development, testing, or security analysis.
- Abstract(参考訳): 本稿では,HTML ページの違いを検出するために,文書オブジェクトモデル (DOM) ツリーの解析と比較を行う HDNA (HTML DNA) という新しい手法を提案する。
この方法は、その構造に基づいて各HTMLページに識別子を割り当て、サーバ側の更新やユーザインタラクション、潜在的なセキュリティリスクによるバリエーションを検出するのに特に有用であることを示す。
このプロセスでは、DOMツリーを生成するHTMLコンテンツを前処理し、2つ以上のツリー間の格差を計算する。
重みをノードに割り当てることで、その階層的重要性に関する貴重な洞察が得られる。
HDNAアプローチの有効性は、動的に生成されたコンテンツが関与している場合でも、DOMツリーの変化を特定する上で実証されている。
この方法は、Webページの進化に関する深い理解を提供することによって、Web開発者、テスタ、セキュリティアナリストに利益をもたらすものではない。
webアプリケーションの機能とパフォーマンスを保証するのにも役立ちます。
さらに、DOM構造の変更によって生じる脆弱性の検出と応答も可能になる。
Webエコシステムが進化を続けるにつれ、HDNAはWeb開発、テスト、セキュリティ分析に従事している個人のためのツールであることが証明されている。
関連論文リスト
- IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web [61.96082780724042]
我々は、画像と対応するWebコード(IW-Bench)のベンチマークをキュレートし、調整した。
本稿では、文書オブジェクトモデル(DOM)ツリーを解析することにより、要素の完全性をテストする要素精度を提案する。
また、性能向上のために5ホップのマルチモーダル・チェーン・オブ・ソート・プロンプティングも設計しています。
論文 参考訳(メタデータ) (2024-09-14T05:38:26Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Dual-View Visual Contextualization for Web Navigation [36.41910428196889]
本稿では,HTML 要素を Web ページのスクリーンショットの "デュアルビュー" を通じてコンテキスト化することを提案する。
Web開発者は、ユーザエクスペリエンスを向上させるために、Webページの近くにタスク関連の要素を配置する傾向があります。
結果として生じるHTML要素の表現は、エージェントがアクションを取るためのより情報的です。
論文 参考訳(メタデータ) (2024-02-06T23:52:10Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - Layout-aware Webpage Quality Assessment [31.537331183733837]
本稿では,現在サーチエンジンに実装されているレイアウト対応ウェブページ品質評価モデルを提案する。
我々は、Webページ、すなわちドキュメントオブジェクトモデル(DOM)ツリーを記述するメタデータをモデルの入力として使用します。
複雑なDOMツリーデータからWebページの品質を評価するために,グラフニューラルネットワーク(GNN)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:27:53Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.11609398029783]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (2021-10-24T00:21:46Z) - Simplified DOM Trees for Transferable Attribute Extraction from the Web [15.728164692696689]
Webページを考えると、構造化されたオブジェクトと関心のあるさまざまな属性の抽出は、さまざまな下流アプリケーションを容易にします。
既存のアプローチは、DOMツリーノードのタグ付けタスクとして問題を定式化する。
本稿では,各ノードの有用なコンテキストを効率的に取得することで,この問題に取り組むための新しい転送可能な手法であるSimpDOMを提案する。
論文 参考訳(メタデータ) (2021-01-07T07:41:55Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。