論文の概要: Document Quality Scoring for Web Crawling
- arxiv url: http://arxiv.org/abs/2504.11011v1
- Date: Tue, 15 Apr 2025 09:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:53.351893
- Title: Document Quality Scoring for Web Crawling
- Title(参考訳): Webクローリングのための文書品質スコアリング
- Authors: Francesca Pezzuti, Ariane Mueller, Sean MacAvaney, Nicola Tonellotto,
- Abstract要約: 本研究では,静的インデックスプルーニングにおけるセマンティッククオリティのニューラルネットワークを用いて,クローリング優先タスクにおけるWebページの意味的クオリティを評価する。
私たちのソフトウェアコントリビューションは、特定のWebページの効果的な品質スコアを計算するDockerコンテナで構成されています。
- 参考スコア(独自算出の注目度): 21.06648177468327
- License:
- Abstract: The internet contains large amounts of low-quality content, yet users expect web search engines to deliver high-quality, relevant results. The abundant presence of low-quality pages can negatively impact retrieval and crawling processes by wasting resources on these documents. Therefore, search engines can greatly benefit from techniques that leverage efficient quality estimation methods to mitigate these negative impacts. Quality scoring methods for web pages are useful for many processes typical for web search systems, including static index pruning, index tiering, and crawling. Building on work by Chang et al.~\cite{chang2024neural}, who proposed using neural estimators of semantic quality for static index pruning, we extend their approach and apply their neural quality scorers to assess the semantic quality of web pages in crawling prioritisation tasks. In our experimental analysis, we found that prioritising semantically high-quality pages over low-quality ones can improve downstream search effectiveness. Our software contribution consists of a Docker container that computes an effective quality score for a given web page, allowing the quality scorer to be easily included and used in other components of web search systems.
- Abstract(参考訳): インターネットには大量の低品質コンテンツが含まれているが、ユーザーはウェブ検索エンジンが高品質で関連性の高い結果をもたらすことを期待している。
低品質なページが豊富に存在することは、これらのドキュメントのリソースを無駄にすることで、検索とクローリングのプロセスに悪影響を及ぼす可能性がある。
したがって、検索エンジンは、これらの負の影響を緩和するために効率的な品質推定手法を活用する技術から大いに恩恵を受けることができる。
Webページの品質評価手法は、静的なインデックスプルーニング、インデックス階層化、クローリングなど、Web検索システムに典型的な多くのプロセスで有用である。
Chang et al ~\cite{chang2024neural} の作業に基づいて、静的インデックスプルーニングに意味論的品質のニューラル推定器を使用することを提案し、彼らのアプローチを拡張し、彼らのニューラルネットワーク品質スコアラを適用して、クローリング優先タスクにおけるWebページの意味的品質を評価する。
実験の結果,低品質ページよりもセマンティックに高品質なページを優先することで,下流検索の有効性が向上することがわかった。
私たちのソフトウェアコントリビューションは、所定のWebページの効率的な品質スコアを計算し、品質スコアラをWeb検索システムの他のコンポーネントに簡単に組み込んで使用できるようにするDockerコンテナで構成されています。
関連論文リスト
- Zero-Indexing Internet Search Augmented Generation for Large Language Models [15.138260067336455]
大規模言語モデルの性能向上に有効な手法として,検索用拡張生成が登場している。
このアプローチは通常、静的な前処理コーパスを管理するために様々なインデックス機構を使用する内部検索モジュールに依存します。
本稿では,標準検索エンジンAPIを活用して最新のオンライン情報を動的に統合する代替手法について検討する。
論文 参考訳(メタデータ) (2024-11-29T05:31:04Z) - Multi-Facet Counterfactual Learning for Content Quality Evaluation [48.73583736357489]
コンテンツ品質評価の複数の側面を知覚する評価器を効率的に構築する枠組みを提案する。
我々は,コントラスト学習と教師付き学習に基づく共同学習戦略を活用し,評価者が異なる品質面を区別できるようにする。
論文 参考訳(メタデータ) (2024-10-10T08:04:10Z) - Neural Passage Quality Estimation for Static Pruning [23.662724916799004]
ニューラルネットワークが、ドキュメントのどのパスが、検索エンジンに送信されたクエリに関連しそうにないかを効果的に予測できるかどうかを検討する。
通過品質を推定する新しい手法により,通過コーパスを著しく刈り取ることが可能であることが判明した。
この研究は、より高度なニューラルな「学習とインデクシング」手法を開発するための段階を定めている。
論文 参考訳(メタデータ) (2024-07-16T20:47:54Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Comparative analysis of various web crawler algorithms [0.0]
本発表では,World Wide Web上の大量のデータを扱う上で,Webクローリングとページランキングアルゴリズムの重要性に焦点を当てる。
ウェブクローリングは、構造化されていないデータを構造化データに変換し、効果的な情報検索を可能にするプロセスである。
ページランキングアルゴリズムは、ウェブページの品質と人気を評価する上で重要な役割を果たす。
論文 参考訳(メタデータ) (2023-06-21T05:27:08Z) - Layout-aware Webpage Quality Assessment [31.537331183733837]
本稿では,現在サーチエンジンに実装されているレイアウト対応ウェブページ品質評価モデルを提案する。
我々は、Webページ、すなわちドキュメントオブジェクトモデル(DOM)ツリーを記述するメタデータをモデルの入力として使用します。
複雑なDOMツリーデータからWebページの品質を評価するために,グラフニューラルネットワーク(GNN)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:27:53Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study [86.62171568318716]
GPT-2のような大規模な生成言語モデルは、テキストを生成する能力で有名である。
ページ品質」の教師なし予測器が出現し、トレーニングなしで品質の低いコンテンツを検出することができることを示す。
われわれは5億件以上のウェブ記事の質的、定量的な分析を行い、このトピックについて史上最大規模の研究を行った。
論文 参考訳(メタデータ) (2020-08-17T07:13:24Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z) - Web Document Categorization Using Naive Bayes Classifier and Latent
Semantic Analysis [0.7310043452300736]
Webドキュメントの急速な成長は、ドキュメントをWeb上で効率的に分類する効率的なテクニックを必要とする。
LSAを用いて同一クラスにおける文書の類似性を向上し、分類精度を向上させるためのウェブ文書分類手法を提案する。
実験により, 前処理を用いることで, ネイブベイの精度と速度が向上することが確認された。
論文 参考訳(メタデータ) (2020-06-02T15:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。