論文の概要: Neural Prioritisation for Web Crawling
- arxiv url: http://arxiv.org/abs/2506.16146v1
- Date: Thu, 19 Jun 2025 08:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.005776
- Title: Neural Prioritisation for Web Crawling
- Title(参考訳): Webクローリングのためのニューラルプライオリデーション
- Authors: Francesza Pezzuti, Sean MacAvaney, Nicola Tonellotto,
- Abstract要約: 本稿では,クローリングの有効性を高めるために,セマンティックな品質駆動型優先順位付け手法を提案する。
クローリングプロセスに直接意味理解を組み込む。
実験の結果,既存のクロール法と比較して,ニューラルクロール法は収穫率,最大NDCG,探索効率を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 23.013617933109526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the vast scale of the Web, crawling prioritisation techniques based on link graph traversal, popularity, link analysis, and textual content are frequently applied to surface documents that are most likely to be valuable. While existing techniques are effective for keyword-based search, both retrieval methods and user search behaviours are shifting from keyword-based matching to natural language semantic matching. The remarkable success of applying semantic matching and quality signals during ranking leads us to hypothesize that crawling could be improved by prioritizing Web pages with high semantic quality. To investigate this, we propose a semantic quality-driven prioritisation technique to enhance the effectiveness of crawling and align the crawler behaviour with recent shift towards natural language search. We embed semantic understanding directly into the crawling process -- leveraging recent neural semantic quality estimators to prioritise the crawling frontier -- with the goal of surfacing content that is semantically rich and valuable for modern search needs. Our experiments on the English subset of ClueWeb22-B and the Researchy Questions query set show that, compared to existing crawling techniques, neural crawling policies significantly improve harvest rate, maxNDCG, and search effectiveness during the early stages of crawling. Meanwhile, crawlers based on our proposed neural policies maintain comparable search performance on keyword queries from the MS MARCO Web Search query set. While this work does not propose a definitive and complete solution, it presents a forward-looking perspective on Web crawling and opens the door to a new line of research on leveraging semantic analysis to effectively align crawlers with the ongoing shift toward natural language search.
- Abstract(参考訳): リンクグラフトラバーサル、人気度、リンク分析、テキストコンテンツに基づくクローリング優先手法は、Webの膨大な規模から見れば、重要と思われる表面文書に頻繁に適用される。
既存の手法はキーワードベースの検索に有効であるが,検索手法とユーザ検索の動作はキーワードベースのマッチングから自然言語のセマンティックマッチングへと変化しつつある。
ランク付け中にセマンティックマッチングと品質信号を適用するという顕著な成功は、セマンティックな品質でWebページを優先順位付けすることでクローリングを改善することができるという仮説を導いた。
そこで本研究では,クローリングの有効性を向上し,クローラの動作を自然言語検索への最近のシフトと整合させる,セマンティックな品質駆動型優先順位付け手法を提案する。
我々は、セマンティック理解を直接クロールプロセスに組み込み、最近のニューラルネットワークセマンティック品質推定を利用してクロールフロンティアを優先順位付けします。
ClueWeb22-Bの英語サブセットとResearchy Questionsクエリセットを用いた実験により,既存のクローリング手法と比較して,ニューラルネットワークのクローリングポリシーは,クロールの初期における収穫率,最大NDCG,探索効率を著しく向上することが示された。
一方、提案したニューラルポリシーに基づくクローラは、MS MARCO Web Searchクエリセットからのキーワードクエリにおいて、同等の検索性能を維持している。
この研究は決定的かつ完全なソリューションを提案していないが、Webクローリングの先見的な視点を示し、セマンティック分析を活用してクローラーを自然言語検索への継続的なシフトに効果的に整合させる新しい研究への扉を開く。
関連論文リスト
- VectorSearch: Enhancing Document Retrieval with Semantic Embeddings and
Optimized Search [1.0411820336052784]
本稿では、高度なアルゴリズム、埋め込み、インデックス化技術を活用して洗練された検索を行うVectorSearchを提案する。
提案手法は,革新的なマルチベクタ探索操作と高度な言語モデルによる検索の符号化を利用して,検索精度を大幅に向上させる。
実世界のデータセットの実験では、VectorSearchがベースラインのメトリクスを上回っている。
論文 参考訳(メタデータ) (2024-09-25T21:58:08Z) - Hybrid Semantic Search: Unveiling User Intent Beyond Keywords [0.0]
本稿では,ユーザの意図を理解する上で,従来のキーワードベースの検索の限界に対処する。
非意味的な検索エンジン、LLM(Large Language Models)、埋め込みモデルの強みを活用する新しいハイブリッド検索手法を導入する。
論文 参考訳(メタデータ) (2024-08-17T16:04:31Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z) - Dynamic Knowledge Routing Network For Target-Guided Open-Domain
Conversation [79.7781436501706]
本稿では,粗いキーワードを導入することで,システム応答の意図した内容を制御する構造的アプローチを提案する。
また,対話を円滑な目標達成に導くために,より高い成功率で対話を誘導する新たな二重談話レベルの目標誘導戦略を提案する。
論文 参考訳(メタデータ) (2020-02-04T09:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。