論文の概要: Pre-training for Information Retrieval: Are Hyperlinks Fully Explored?
- arxiv url: http://arxiv.org/abs/2209.06583v1
- Date: Wed, 14 Sep 2022 12:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:57:49.641271
- Title: Pre-training for Information Retrieval: Are Hyperlinks Fully Explored?
- Title(参考訳): 情報検索のための事前トレーニング:ハイパーリンクは完全に探索されているか?
- Authors: Jiawen Wu, Xinyu Zhang, Yutao Zhu, Zheng Liu, Zikai Guo, Zhaoye Fei,
Ruofei Lai, Yongkang Wu, Zhao Cao, Zhicheng Dou
- Abstract要約: 本稿では,事前学習におけるハイパーリンクの利用を検討するために,プログレッシブハイパーリンク予測(PHP)フレームワークを提案する。
2つの大規模アドホック検索データセットと6つの質問回答データセットの実験結果は、既存の事前学習手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 19.862211305690916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed great progress on applying pre-trained language
models, e.g., BERT, to information retrieval (IR) tasks. Hyperlinks, which are
commonly used in Web pages, have been leveraged for designing pre-training
objectives. For example, anchor texts of the hyperlinks have been used for
simulating queries, thus constructing tremendous query-document pairs for
pre-training. However, as a bridge across two web pages, the potential of
hyperlinks has not been fully explored. In this work, we focus on modeling the
relationship between two documents that are connected by hyperlinks and
designing a new pre-training objective for ad-hoc retrieval. Specifically, we
categorize the relationships between documents into four groups: no link,
unidirectional link, symmetric link, and the most relevant symmetric link. By
comparing two documents sampled from adjacent groups, the model can gradually
improve its capability of capturing matching signals. We propose a progressive
hyperlink predication ({PHP}) framework to explore the utilization of
hyperlinks in pre-training. Experimental results on two large-scale ad-hoc
retrieval datasets and six question-answering datasets demonstrate its
superiority over existing pre-training methods.
- Abstract(参考訳): 近年では、情報検索(IR)タスクに、BERTなどの事前学習言語モデルを適用するという大きな進歩が見られる。
ウェブページで一般的に使用されるハイパーリンクは、事前学習目的の設計に活用されている。
例えば、ハイパーリンクのアンカーテキストはクエリをシミュレートするために使われており、事前トレーニングのための巨大なクエリドキュメントペアを構築している。
しかし、2つのWebページにまたがるブリッジとして、ハイパーリンクの可能性は完全には検討されていない。
本研究では,ハイパーリンクで接続された2つの文書間の関係をモデル化し,アドホック検索のための新しい事前学習目標を設計する。
具体的には、文書間の関係を、リンクなし、一方向リンク、対称リンク、最も関連する対称リンクの4つのグループに分類する。
隣接するグループからサンプリングされた2つの文書を比較することで、マッチング信号のキャプチャ能力が徐々に向上する。
我々は,事前学習におけるハイパーリンクの利用を検討するために,プログレッシブハイパーリンク述語({php})フレームワークを提案する。
2つの大規模アドホック検索データセットと6つの質問回答データセットの実験結果は、既存の事前学習手法よりも優れていることを示す。
関連論文リスト
- Link-aware link prediction over temporal graph by pattern recognition [0.0]
時間グラフはリンクのストリームと見なすことができ、それぞれが特定の時間に2つのノード間の相互作用を表す。
時間グラフでは、リンク予測は一般的なタスクであり、クエリリンクが真かどうかに答えることを目的としている。
本稿では,リンク認識モデルを提案する。 履歴リンクとクエリリンクは,以下のモデル層にまとめて入力される。
6つのデータセットの実験により、我々のモデルは最先端のベースラインと比較して高い性能を達成できた。
論文 参考訳(メタデータ) (2024-02-11T13:26:06Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Bi-Link: Bridging Inductive Link Predictions from Text via Contrastive
Learning of Transformers and Prompts [2.9972063833424216]
本稿では,確率論的構文をリンク予測に役立てた比較学習フレームワークBi-Linkを提案する。
BERTの文法的知識を用いて,大規模知識グラフに一般化する学習的構文パターンに従って,関係性プロンプトを効率的に探索する。
我々の実験では、Bi-Linkはリンク予測データセットの最近のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-10-26T04:31:07Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Anchor Prediction: A Topic Modeling Approach [2.0411082897313984]
我々はアノテーションを提案し、これをアンカー予測と呼ぶ。
ソースドキュメントとターゲットドキュメントが与えられた場合、このタスクはソースドキュメント内のアンカーを自動的に識別する。
本稿では,文書間のリンクをモデル化するコンテキスト型関係トピックモデルCRTMを提案する。
論文 参考訳(メタデータ) (2022-05-29T11:26:52Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Hyperlink-induced Pre-training for Passage Retrieval in Open-domain
Question Answering [53.381467950545606]
HyperLink-induced Pre-training (HLP) は、Webドキュメント内のハイパーリンクベースのトポロジーによって引き起こされるテキスト関連性によって、高密度検索を事前訓練する手法である。
本稿では,双対リンクとコメンテーションのハイパーリンクに基づく構造が,大規模事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-14T09:09:49Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Predicting Links on Wikipedia with Anchor Text Information [0.571097144710995]
英語ウィキペディアのいくつかのサブセットにおけるリンク予測の帰納的タスクと帰納的タスクについて検討する。
本稿では,適切な評価サンプリング手法を提案し,いくつかのアルゴリズムを比較した。
論文 参考訳(メタデータ) (2021-05-25T07:57:57Z) - Message Passing for Hyper-Relational Knowledge Graphs [7.733963597282456]
本稿では,このようなハイパーリレーショナルな知識グラフをモデル化可能なメッセージパッシンググラフエンコーダであるStarEを提案する。
StarEは、任意の数の付加情報(修飾子)を主三重項と共に符号化し、修飾子と三重項の意味的役割をそのまま保持することができる。
実験により、StarEベースのLPモデルは、複数のベンチマークで既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-22T22:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。