論文の概要: Anchor Prediction: A Topic Modeling Approach
- arxiv url: http://arxiv.org/abs/2205.14631v2
- Date: Wed, 1 Jun 2022 07:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 13:23:37.965122
- Title: Anchor Prediction: A Topic Modeling Approach
- Title(参考訳): anchor prediction: トピックモデリングアプローチ
- Authors: Jean Dupuy, Adrien Guille and Julien Jacques
- Abstract要約: 我々はアノテーションを提案し、これをアンカー予測と呼ぶ。
ソースドキュメントとターゲットドキュメントが与えられた場合、このタスクはソースドキュメント内のアンカーを自動的に識別する。
本稿では,文書間のリンクをモデル化するコンテキスト型関係トピックモデルCRTMを提案する。
- 参考スコア(独自算出の注目度): 2.0411082897313984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Networks of documents connected by hyperlinks, such as Wikipedia, are
ubiquitous. Hyperlinks are inserted by the authors to enrich the text and
facilitate the navigation through the network. However, authors tend to insert
only a fraction of the relevant hyperlinks, mainly because this is a time
consuming task. In this paper we address an annotation, which we refer to as
anchor prediction. Even though it is conceptually close to link prediction or
entity linking, it is a different task that require developing a specific
method to solve it. Given a source document and a target document, this task
consists in automatically identifying anchors in the source document, i.e words
or terms that should carry a hyperlink pointing towards the target document. We
propose a contextualized relational topic model, CRTM, that models directed
links between documents as a function of the local context of the anchor in the
source document and the whole content of the target document. The model can be
used to predict anchors in a source document, given the target document,
without relying on a dictionary of previously seen mention or title, nor any
external knowledge graph. Authors can benefit from CRTM, by letting it
automatically suggest hyperlinks, given a new document and the set of target
document to connect to. It can also benefit to readers, by dynamically
inserting hyperlinks between the documents they're reading. Experiments
conducted on several Wikipedia corpora (in English, Italian and German)
highlight the practical usefulness of anchor prediction and demonstrate the
relevancy of our approach.
- Abstract(参考訳): ウィキペディアのようなハイパーリンクで接続されたドキュメントのネットワークはユビキタスである。
ハイパーリンクは著者によって挿入され、テキストを充実させ、ネットワーク経由のナビゲーションを容易にする。
しかし、著者は関連するハイパーリンクのほんの一部だけを挿入する傾向がある。
本稿では,アンカー予測と呼ばれるアノテーションについて述べる。
概念的には、リンク予測やエンティティリンクに近いが、それを解決するのに特定の方法を開発する必要があるタスクである。
ソースドキュメントとターゲットドキュメントが与えられた場合、このタスクは、ソースドキュメント内のアンカーを自動的に識別する。
本研究では,ソース文書中のアンカーの局所的コンテキストと対象文書の全内容の関数として,文書間の指向されたリンクをモデル化するコンテキスト化関係トピックモデルcrtmを提案する。
このモデルは、先の言及やタイトルの辞書や外部の知識グラフに頼ることなく、対象ドキュメントに与えられたソースドキュメント内のアンカーを予測するために使うことができる。
作者は、新しいドキュメントと接続すべきターゲットドキュメントセットを指定して、ハイパーリンクを自動的に提案することで、CRTMの恩恵を受けることができる。
また、読んでいるドキュメントの間にハイパーリンクを動的に挿入することで、読者にもメリットがあります。
いくつかのウィキペディアコーパス(英語、イタリア語、ドイツ語)で実施された実験は、アンカー予測の実用的有用性を強調し、我々のアプローチの妥当性を示す。
関連論文リスト
- Directed Criteria Citation Recommendation and Ranking Through Link Prediction [0.32885740436059047]
本モデルでは,各文書の意味を要約ネットワーク内のノードとして符号化するために,トランスフォーマーベースのグラフ埋め込みを用いる。
我々のモデルが生成するセマンティック表現は、推薦タスクやランキングタスクにおいて、他のコンテントベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T20:47:38Z) - FAMuS: Frames Across Multiple Sources [74.03795560933612]
FAMuSはウィキペディアの節集の新たなコーパスで、あるイベントにエンフレポートし、同じイベントのための基礎となるジャンルディバース(非ウィキペディア)のemphsource記事と組み合わせている。
FAMuSによって実現された2つの重要な事象理解タスクについて報告する。
論文 参考訳(メタデータ) (2023-11-09T18:57:39Z) - Anchor Prediction: Automatic Refinement of Internet Links [25.26235117917374]
本稿では,アンカー予測の課題を紹介する。
目標は、リンクされたターゲットWebページの特定の部分を特定することであり、ソースリンクのコンテキストに最も関係している。
AuthorAnchorsデータセットは、自然にアンカーされたリンクの34Kのコレクションです。
論文 参考訳(メタデータ) (2023-05-23T17:58:21Z) - Pre-training for Information Retrieval: Are Hyperlinks Fully Explored? [19.862211305690916]
本稿では,事前学習におけるハイパーリンクの利用を検討するために,プログレッシブハイパーリンク予測(PHP)フレームワークを提案する。
2つの大規模アドホック検索データセットと6つの質問回答データセットの実験結果は、既存の事前学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-14T12:03:31Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - LinkBERT: Pretraining Language Models with Document Links [151.61148592954768]
言語モデル(LM)事前学習はテキストコーパスから様々な知識を学習し、下流のタスクを支援する。
本稿では,文書間のリンク,例えばハイパーリンクを利用するLM事前学習手法であるLinkBERTを提案する。
LinkBERTは、2つのドメインにわたる様々な下流タスクにおいてBERTよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-29T18:01:24Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Predicting Links on Wikipedia with Anchor Text Information [0.571097144710995]
英語ウィキペディアのいくつかのサブセットにおけるリンク予測の帰納的タスクと帰納的タスクについて検討する。
本稿では,適切な評価サンプリング手法を提案し,いくつかのアルゴリズムを比較した。
論文 参考訳(メタデータ) (2021-05-25T07:57:57Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。