論文の概要: Prediction of new outlinks for focused Web crawling
- arxiv url: http://arxiv.org/abs/2111.05062v2
- Date: Wed, 10 Nov 2021 20:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 12:07:37.127617
- Title: Prediction of new outlinks for focused Web crawling
- Title(参考訳): 集中型Webクローリングのための新しいアウトリンクの予測
- Authors: Thi Kim Nhung Dang (1), Doina Bucur (1), Berk Atil (2), Guillaume
Pitel (3), Frank Ruis (1), Hamidreza Kadkhodaei (1), and Nelly Litvak (1 and
4) ((1) University of Twente, The Netherlands, (2) Bogazici University,
Turkey, (3) Exensa, France, (4) Eindhoven University of Technology, The
Netherlands)
- Abstract要約: この研究は、短い履歴を用いて、新しいリンクを効果的に検出するための方法論を提供する。
リンク変更率、新しいリンクの存在、新しいリンク数という3つのターゲットに対する統計モデルを提供する。
注目すべき発見は、ターゲットページの履歴が利用できない場合、我々の新機能は、関連するページの履歴を表すもので、ターゲットページの新規リンクに対して最も予測的であることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering new hyperlinks enables Web crawlers to find new pages that have
not yet been indexed. This is especially important for focused crawlers because
they strive to provide a comprehensive analysis of specific parts of the Web,
thus prioritizing discovery of new pages over discovery of changes in content.
In the literature, changes in hyperlinks and content have been usually
considered simultaneously. However, there is also evidence suggesting that
these two types of changes are not necessarily related. Moreover, many studies
about predicting changes assume that long history of a page is available, which
is unattainable in practice. The aim of this work is to provide a methodology
for detecting new links effectively using a short history. To this end, we use
a dataset of ten crawls at intervals of one week. Our study consists of three
parts. First, we obtain insight in the data by analyzing empirical properties
of the number of new outlinks. We observe that these properties are, on
average, stable over time, but there is a large difference between emergence of
hyperlinks towards pages within and outside the domain of a target page
(internal and external outlinks, respectively). Next, we provide statistical
models for three targets: the link change rate, the presence of new links, and
the number of new links. These models include the features used earlier in the
literature, as well as new features introduced in this work. We analyze
correlation between the features, and investigate their informativeness. A
notable finding is that, if the history of the target page is not available,
then our new features, that represent the history of related pages, are most
predictive for new links in the target page. Finally, we propose ranking
methods as guidelines for focused crawlers to efficiently discover new pages,
which achieve excellent performance with respect to the corresponding targets.
- Abstract(参考訳): 新しいハイパーリンクを発見することで、Webクローラーはインデックス化されていない新しいページを見つけることができる。
これは集中型クローラーにとって特に重要である。ウェブの特定の部分の包括的な分析を提供し、コンテンツの変更の発見よりも新しいページの発見を優先するためである。
文献では、ハイパーリンクとコンテンツの変化は、通常同時に考慮されている。
しかしながら、これらの2つのタイプの変更が必ずしも関連しているわけではないことを示す証拠もある。
さらに、変更の予測に関する多くの研究は、ページの長い履歴が利用可能であると仮定している。
本研究の目的は,新しいリンクを短時間の履歴を用いて効果的に検出する手法を提供することである。
この目的のために、私たちは1週間の間隔で10クロールのデータセットを使用します。
私たちの研究は3つの部分からなる。
まず,新しいアウトリンク数の実験的特性を解析することにより,データに対する洞察を得る。
これらの特性は、平均して時間とともに安定しているが、対象ページ(内部リンクと外部リンク)のドメイン内外へのハイパーリンクの出現には大きな差がある。
次に、リンク変更率、新しいリンクの存在、新しいリンクの数という3つのターゲットに対する統計モデルを提供する。
これらのモデルには、文献で以前に使われた機能と、本書で導入された新機能が含まれている。
特徴間の相関を解析し,その情報性について検討する。
注目すべき発見は、ターゲットページの履歴が利用できない場合、我々の新機能は、関連するページの履歴を表すもので、ターゲットページの新規リンクに対して最も予測的であることである。
最後に,集中型クローラのガイドラインとしてランク付け手法を提案し,新しいページを効率よく発見し,対応するターゲットに対して優れた性能を実現する。
関連論文リスト
- Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Directed Criteria Citation Recommendation and Ranking Through Link Prediction [0.32885740436059047]
本モデルでは,各文書の意味を要約ネットワーク内のノードとして符号化するために,トランスフォーマーベースのグラフ埋め込みを用いる。
我々のモデルが生成するセマンティック表現は、推薦タスクやランキングタスクにおいて、他のコンテントベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T20:47:38Z) - Revisiting Link Prediction: A Data Perspective [59.296773787387224]
グラフの基本的なタスクであるリンク予測は、友人の推薦、タンパク質分析、薬物相互作用予測など、様々な応用において不可欠であることが証明されている。
既存の文献の証拠は、すべてのデータセットに適した普遍的に最良のアルゴリズムが存在しないことを裏付けている。
我々は,局所的な構造的近接,大域的な構造的近接,特徴的近接という,リンク予測に不可欠な3つの基本的要因を認識する。
論文 参考訳(メタデータ) (2023-10-01T21:09:59Z) - Anchor Prediction: Automatic Refinement of Internet Links [25.26235117917374]
本稿では,アンカー予測の課題を紹介する。
目標は、リンクされたターゲットWebページの特定の部分を特定することであり、ソースリンクのコンテキストに最も関係している。
AuthorAnchorsデータセットは、自然にアンカーされたリンクの34Kのコレクションです。
論文 参考訳(メタデータ) (2023-05-23T17:58:21Z) - Pre-training for Information Retrieval: Are Hyperlinks Fully Explored? [19.862211305690916]
本稿では,事前学習におけるハイパーリンクの利用を検討するために,プログレッシブハイパーリンク予測(PHP)フレームワークを提案する。
2つの大規模アドホック検索データセットと6つの質問回答データセットの実験結果は、既存の事前学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-14T12:03:31Z) - Twitter Referral Behaviours on News Consumption with Ensemble Clustering
of Click-Stream Data in Turkish Media [2.9005223064604078]
本研究は,Twitter のレファレンスに追随するニュース消費パターンを識別するために,組織ウェブサイトにおける読者のクリック活動について調査する。
調査は、ログデータをニュースコンテンツとリンクして洞察を深めることで、幅広い視点に展開されている。
論文 参考訳(メタデータ) (2022-02-04T09:57:13Z) - Predicting Links on Wikipedia with Anchor Text Information [0.571097144710995]
英語ウィキペディアのいくつかのサブセットにおけるリンク予測の帰納的タスクと帰納的タスクについて検討する。
本稿では,適切な評価サンプリング手法を提案し,いくつかのアルゴリズムを比較した。
論文 参考訳(メタデータ) (2021-05-25T07:57:57Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。