論文の概要: Predicting Links on Wikipedia with Anchor Text Information
- arxiv url: http://arxiv.org/abs/2105.11734v1
- Date: Tue, 25 May 2021 07:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 13:58:17.675441
- Title: Predicting Links on Wikipedia with Anchor Text Information
- Title(参考訳): アンカーテキスト情報によるウィキペディアのリンク予測
- Authors: Robin Brochier, Fr\'ed\'eric B\'echet
- Abstract要約: 英語ウィキペディアのいくつかのサブセットにおけるリンク予測の帰納的タスクと帰納的タスクについて検討する。
本稿では,適切な評価サンプリング手法を提案し,いくつかのアルゴリズムを比較した。
- 参考スコア(独自算出の注目度): 0.571097144710995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wikipedia, the largest open-collaborative online encyclopedia, is a corpus of
documents bound together by internal hyperlinks. These links form the building
blocks of a large network whose structure contains important information on the
concepts covered in this encyclopedia. The presence of a link between two
articles, materialised by an anchor text in the source page pointing to the
target page, can increase readers' understanding of a topic. However, the
process of linking follows specific editorial rules to avoid both under-linking
and over-linking. In this paper, we study the transductive and the inductive
tasks of link prediction on several subsets of the English Wikipedia and
identify some key challenges behind automatic linking based on anchor text
information. We propose an appropriate evaluation sampling methodology and
compare several algorithms. Moreover, we propose baseline models that provide a
good estimation of the overall difficulty of the tasks.
- Abstract(参考訳): wikipediaは最大規模のオンライン百科事典であり、内部リンクで結ばれた文書のコーパスである。
これらのリンクは、この百科事典でカバーされている概念に関する重要な情報を含む大きなネットワークの構成要素を形成する。
対象ページを指しているソースページのアンカーテキストで具体化された2つの記事間のリンクの存在は、読者のトピックに対する理解を高めることができる。
しかし、リンクのプロセスは、アンダーリンクとオーバーリンクの両方を避けるための特定の編集規則に従う。
本稿では、英語ウィキペディアのいくつかのサブセットにおけるリンク予測の帰納的および帰納的タスクを調査し、アンカーテキスト情報に基づく自動リンクの背後にあるいくつかの重要な課題を明らかにする。
適切な評価サンプリング手法を提案し,いくつかのアルゴリズムを比較した。
さらに,タスクの全体的な難易度を適切に推定するベースラインモデルを提案する。
関連論文リスト
- DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Reranking Passages with Coarse-to-Fine Neural Retriever Enhanced by List-Context Information [0.9463895540925061]
本稿では、他の候補からリストコンテキスト情報を取り入れることで、文節表現を増強するリストコンテキストアテンション機構を提案する。
The proposed coarse-to-fine neural retriever address the out-of-Memory limitation of the passage attention mechanism。
粗いランク付けと細かなランク付けを共同最適化プロセスに統合することで、2つのレイヤ間のフィードバックを同時に更新することが可能になる。
論文 参考訳(メタデータ) (2023-08-23T09:29:29Z) - Anchor Prediction: Automatic Refinement of Internet Links [25.26235117917374]
本稿では,アンカー予測の課題を紹介する。
目標は、リンクされたターゲットWebページの特定の部分を特定することであり、ソースリンクのコンテキストに最も関係している。
AuthorAnchorsデータセットは、自然にアンカーされたリンクの34Kのコレクションです。
論文 参考訳(メタデータ) (2023-05-23T17:58:21Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Pre-training for Information Retrieval: Are Hyperlinks Fully Explored? [19.862211305690916]
本稿では,事前学習におけるハイパーリンクの利用を検討するために,プログレッシブハイパーリンク予測(PHP)フレームワークを提案する。
2つの大規模アドホック検索データセットと6つの質問回答データセットの実験結果は、既存の事前学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-14T12:03:31Z) - Anchor Prediction: A Topic Modeling Approach [2.0411082897313984]
我々はアノテーションを提案し、これをアンカー予測と呼ぶ。
ソースドキュメントとターゲットドキュメントが与えられた場合、このタスクはソースドキュメント内のアンカーを自動的に識別する。
本稿では,文書間のリンクをモデル化するコンテキスト型関係トピックモデルCRTMを提案する。
論文 参考訳(メタデータ) (2022-05-29T11:26:52Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - A Multilingual Entity Linking System for Wikipedia with a
Machine-in-the-Loop Approach [2.2889152373118975]
ウィキペディアの編集者によるコンテンツの追加とメンテナンスの努力にもかかわらず、多くの言語版ではリンクの配布は少ないままである。
本稿では,リンクを付加するためのコミュニティガイドラインに従うことのできる,ループ内のマシン・イン・ザ・ループ・エンティティ・リンクシステムを提案する。
筆者らは,推薦の確認,拒否,適応が可能な編集者への候補リンクを提案する対話型レコメンデーションインタフェースを開発した。
論文 参考訳(メタデータ) (2021-05-31T16:29:42Z) - Context-Aware Interaction Network for Question Matching [51.76812857301819]
本研究では,二つのシーケンスを整合させ,それらの意味関係を推定する文脈認識インタラクションネットワーク(coin)を提案する。
具体的には,(1)コンテキスト情報を効果的に統合するためのコンテキスト対応のクロスアテンション機構,(2)整列表現を柔軟に補間するゲート融合層を備える。
論文 参考訳(メタデータ) (2021-04-17T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。