論文の概要: Pre-training for Information Retrieval: Are Hyperlinks Fully Explored?
- arxiv url: http://arxiv.org/abs/2209.06583v1
- Date: Wed, 14 Sep 2022 12:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:57:49.641271
- Title: Pre-training for Information Retrieval: Are Hyperlinks Fully Explored?
- Title(参考訳): 情報検索のための事前トレーニング:ハイパーリンクは完全に探索されているか?
- Authors: Jiawen Wu, Xinyu Zhang, Yutao Zhu, Zheng Liu, Zikai Guo, Zhaoye Fei,
Ruofei Lai, Yongkang Wu, Zhao Cao, Zhicheng Dou
- Abstract要約: 本稿では,事前学習におけるハイパーリンクの利用を検討するために,プログレッシブハイパーリンク予測(PHP)フレームワークを提案する。
2つの大規模アドホック検索データセットと6つの質問回答データセットの実験結果は、既存の事前学習手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 19.862211305690916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed great progress on applying pre-trained language
models, e.g., BERT, to information retrieval (IR) tasks. Hyperlinks, which are
commonly used in Web pages, have been leveraged for designing pre-training
objectives. For example, anchor texts of the hyperlinks have been used for
simulating queries, thus constructing tremendous query-document pairs for
pre-training. However, as a bridge across two web pages, the potential of
hyperlinks has not been fully explored. In this work, we focus on modeling the
relationship between two documents that are connected by hyperlinks and
designing a new pre-training objective for ad-hoc retrieval. Specifically, we
categorize the relationships between documents into four groups: no link,
unidirectional link, symmetric link, and the most relevant symmetric link. By
comparing two documents sampled from adjacent groups, the model can gradually
improve its capability of capturing matching signals. We propose a progressive
hyperlink predication ({PHP}) framework to explore the utilization of
hyperlinks in pre-training. Experimental results on two large-scale ad-hoc
retrieval datasets and six question-answering datasets demonstrate its
superiority over existing pre-training methods.
- Abstract(参考訳): 近年では、情報検索(IR)タスクに、BERTなどの事前学習言語モデルを適用するという大きな進歩が見られる。
ウェブページで一般的に使用されるハイパーリンクは、事前学習目的の設計に活用されている。
例えば、ハイパーリンクのアンカーテキストはクエリをシミュレートするために使われており、事前トレーニングのための巨大なクエリドキュメントペアを構築している。
しかし、2つのWebページにまたがるブリッジとして、ハイパーリンクの可能性は完全には検討されていない。
本研究では,ハイパーリンクで接続された2つの文書間の関係をモデル化し,アドホック検索のための新しい事前学習目標を設計する。
具体的には、文書間の関係を、リンクなし、一方向リンク、対称リンク、最も関連する対称リンクの4つのグループに分類する。
隣接するグループからサンプリングされた2つの文書を比較することで、マッチング信号のキャプチャ能力が徐々に向上する。
我々は,事前学習におけるハイパーリンクの利用を検討するために,プログレッシブハイパーリンク述語({php})フレームワークを提案する。
2つの大規模アドホック検索データセットと6つの質問回答データセットの実験結果は、既存の事前学習手法よりも優れていることを示す。
関連論文リスト
- Multi-Facet Blending for Faceted Query-by-Example Retrieval [5.156059061769101]
本稿では,多面体ブレンディング(FaBle)拡張法を提案する。
モジュール化によって、事前に定義されたファセットの知識やラベルが不要になります。
1K文書上のFaBle拡張は、ファセット条件埋め込みの訓練を著しく支援する。
論文 参考訳(メタデータ) (2024-12-02T12:32:19Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - A Semantic Mention Graph Augmented Model for Document-Level Event Argument Extraction [12.286432133599355]
Document-level Event Argument extract (DEAE)は、構造化されていないドキュメントから引数とその特定の役割を特定することを目的としている。
DEAEの先進的なアプローチは、事前訓練された言語モデル(PLM)を誘導するプロンプトベースの手法を用いて、入力文書から引数を抽出する。
本稿では,この2つの問題に対処するために,グラフ拡張モデル (GAM) のセマンティック言及を提案する。
論文 参考訳(メタデータ) (2024-03-12T08:58:07Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Bi-Link: Bridging Inductive Link Predictions from Text via Contrastive
Learning of Transformers and Prompts [2.9972063833424216]
本稿では,確率論的構文をリンク予測に役立てた比較学習フレームワークBi-Linkを提案する。
BERTの文法的知識を用いて,大規模知識グラフに一般化する学習的構文パターンに従って,関係性プロンプトを効率的に探索する。
我々の実験では、Bi-Linkはリンク予測データセットの最近のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-10-26T04:31:07Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Anchor Prediction: A Topic Modeling Approach [2.0411082897313984]
我々はアノテーションを提案し、これをアンカー予測と呼ぶ。
ソースドキュメントとターゲットドキュメントが与えられた場合、このタスクはソースドキュメント内のアンカーを自動的に識別する。
本稿では,文書間のリンクをモデル化するコンテキスト型関係トピックモデルCRTMを提案する。
論文 参考訳(メタデータ) (2022-05-29T11:26:52Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。