論文の概要: Web Page Classification using LLMs for Crawling Support
- arxiv url: http://arxiv.org/abs/2505.06972v1
- Date: Sun, 11 May 2025 13:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.137245
- Title: Web Page Classification using LLMs for Crawling Support
- Title(参考訳): LLMを用いたクローリング支援のためのWebページ分類
- Authors: Yuichi Sasazawa, Yasuhiro Sogawa,
- Abstract要約: ウェブページを「インデックスページ」と「コンテンツページ」の2つのタイプに分類することで,新しいページを効率的に収集する手法を提案する。
自動アノテーション付きWebページ型を用いたデータセットを構築し、ページタイプ分類性能と新しいページのカバレッジという2つの視点からアプローチを評価する。
- 参考スコア(独自算出の注目度): 3.370788394696053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A web crawler is a system designed to collect web pages, and efficient crawling of new pages requires appropriate algorithms. While website features such as XML sitemaps and the frequency of past page updates provide important clues for accessing new pages, their universal application across diverse conditions is challenging. In this study, we propose a method to efficiently collect new pages by classifying web pages into two types, "Index Pages" and "Content Pages," using a large language model (LLM), and leveraging the classification results to select index pages as starting points for accessing new pages. We construct a dataset with automatically annotated web page types and evaluate our approach from two perspectives: the page type classification performance and coverage of new pages. Experimental results demonstrate that the LLM-based method outperformed baseline methods in both evaluation metrics.
- Abstract(参考訳): WebクローラはWebページの収集用に設計されたシステムであり、新しいページの効率的なクローリングには適切なアルゴリズムが必要である。
XMLサイトマップや過去のページ更新頻度のようなWebサイト機能は、新しいページにアクセスするための重要な手がかりを提供するが、それらの様々な条件にまたがる普遍的な応用は困難である。
本研究では,ウェブページを「インデックスページ」と「コンテンツページ」の2つのタイプに分類し,大規模言語モデル(LLM)を用いて,新たなページにアクセスするための出発点としてインデックスページを選択する手法を提案する。
自動アノテーション付きWebページ型を用いたデータセットを構築し、ページタイプ分類性能と新しいページのカバレッジという2つの視点からアプローチを評価する。
実験結果から, LLM法は両評価指標において, ベースライン法よりも優れた性能を示した。
関連論文リスト
- WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z) - MRWeb: An Exploration of Generating Multi-Page Resource-Aware Web Code from UI Designs [50.274447094978996]
マルチページリソース対応Webページ(MRWeb)生成タスクは、UIデザインをマルチページ、内部/外部ナビゲーション、イメージローディング、バックエンドルーティングを備えた機能的なWebUIに変換する。
本稿では,500のWebサイト(300の合成,200の現実世界)を新たにキュレートしたデータセットを用いて既存のMRWeb問題に適用する。特に,Web UIの類似性を評価し,MRWeb生成に対するリソースリストの影響を評価し,MLLMの制約を分析し,MRWebツールの有効性を評価する。
論文 参考訳(メタデータ) (2024-12-19T15:02:33Z) - Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract) [73.57710917145212]
ランク付け学習は、入力クエリに基づいて関連するWebページを優先順位付けするために、Web検索で広く使われている。
本稿では,これらの課題に対処するために,経験的 UlineSemi-uline Supervised ulinePre-trained (GS2P) モデルを提案する。
我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
論文 参考訳(メタデータ) (2024-09-25T03:39:14Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Context-Aware Classification of Legal Document Pages [7.306025535482021]
入力長の制約を克服する,単純だが効果的な手法を提案する。
具体的には、前のページのシーケンシャルな情報を含む余分なトークンで入力を強化する。
英語とポルトガル語の2つの法的データセットを用いて実験を行った結果,提案手法は文書ページ分類の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-04-05T23:14:58Z) - Layout-aware Webpage Quality Assessment [31.537331183733837]
本稿では,現在サーチエンジンに実装されているレイアウト対応ウェブページ品質評価モデルを提案する。
我々は、Webページ、すなわちドキュメントオブジェクトモデル(DOM)ツリーを記述するメタデータをモデルの入力として使用します。
複雑なDOMツリーデータからWebページの品質を評価するために,グラフニューラルネットワーク(GNN)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:27:53Z) - Page Segmentation using Visual Adjacency Analysis [5.9521013526545925]
本稿では,局所化隣接領域の視覚的解析に基づく新しいページセグメンテーション手法を提案する。
DOM属性とビジュアル分析を組み合わせて、特定のページの機能を構築し、教師なしクラスタリングをガイドします。
実世界の35のWebページに対するアプローチを評価し,セグメンテーションの有効性と効率について検討した。
論文 参考訳(メタデータ) (2021-12-11T00:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。