論文の概要: Unsupervised Dense Retrieval Training with Web Anchors
- arxiv url: http://arxiv.org/abs/2305.05834v1
- Date: Wed, 10 May 2023 01:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 14:58:32.242511
- Title: Unsupervised Dense Retrieval Training with Web Anchors
- Title(参考訳): Webアンカーによる教師なしDense Retrieval Training
- Authors: Yiqing Xie, Xiao Liu, Chenyan Xiong
- Abstract要約: 我々は、アンカーテキストとリンクされた文書にマッチする対照的な学習タスクで、教師なしの密集型検索器、Anchor-DRを訓練する。
実験により、アンカーDRは、教師なし密集検索における最先端の手法よりも大きなマージンで優れていることが示された。
解析により,アンカー文書対のパターンが検索クエリ文書対のパターンと類似していることが明らかになった。
- 参考スコア(独自算出の注目度): 29.44275536993025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present an unsupervised retrieval method with contrastive
learning on web anchors. The anchor text describes the content that is
referenced from the linked page. This shows similarities to search queries that
aim to retrieve pertinent information from relevant documents. Based on their
commonalities, we train an unsupervised dense retriever, Anchor-DR, with a
contrastive learning task that matches the anchor text and the linked document.
To filter out uninformative anchors (such as ``homepage'' or other functional
anchors), we present a novel filtering technique to only select anchors that
contain similar types of information as search queries. Experiments show that
Anchor-DR outperforms state-of-the-art methods on unsupervised dense retrieval
by a large margin (e.g., by 5.3% NDCG@10 on MSMARCO). The gain of our method is
especially significant for search and question answering tasks. Our analysis
further reveals that the pattern of anchor-document pairs is similar to that of
search query-document pairs. Code available at
https://github.com/Veronicium/AnchorDR.
- Abstract(参考訳): 本研究では,Webアンカー上でのコントラスト学習を用いた教師なし検索手法を提案する。
アンカーテキストは、リンクされたページから参照されるコンテンツを記述する。
これは、関連するドキュメントから関連する情報を検索することを目的とした検索クエリと類似性を示す。
それらの共通性に基づいて,アンカーテキストとリンクされた文書にマッチするコントラスト学習タスクを用いて,教師なしの密集したレトリバーであるanchor-drを訓練する。
非定型アンカー(`homepage'' などの関数型アンカー)をフィルタリングするために,検索クエリとして類似した情報を含むアンカーを選択できる新しいフィルタリング手法を提案する。
実験によれば、アンカーdrは非教師なしの密検索において最先端の手法よりも大きなマージン(例えばmsmarcoでは5.3%のndcg@10)で勝っている。
本手法の利得は,検索および質問応答タスクにおいて特に重要である。
解析により,アンカー文書対のパターンが検索クエリ文書対のパターンと類似していることが明らかになった。
コードはhttps://github.com/veronicium/anchordr。
関連論文リスト
- Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Referral Augmentation for Zero-Shot Information Retrieval [30.811093210831018]
Referral-Augmented Retrieval (RAR)は、ドキュメントインデックスと参照をリンクするシンプルなテクニックである。
RARはスパースとディープレトリバーの両方で動作し、生成テキスト拡張技術より優れている。
マルチリフレラルアグリゲーションのための様々な手法を解析し、再学習せずに最新の情報検索を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T12:28:35Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Anchor Prediction: Automatic Refinement of Internet Links [25.26235117917374]
本稿では,アンカー予測の課題を紹介する。
目標は、リンクされたターゲットWebページの特定の部分を特定することであり、ソースリンクのコンテキストに最も関係している。
AuthorAnchorsデータセットは、自然にアンカーされたリンクの34Kのコレクションです。
論文 参考訳(メタデータ) (2023-05-23T17:58:21Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Anchor Prediction: A Topic Modeling Approach [2.0411082897313984]
我々はアノテーションを提案し、これをアンカー予測と呼ぶ。
ソースドキュメントとターゲットドキュメントが与えられた場合、このタスクはソースドキュメント内のアンカーを自動的に識別する。
本稿では,文書間のリンクをモデル化するコンテキスト型関係トピックモデルCRTMを提案する。
論文 参考訳(メタデータ) (2022-05-29T11:26:52Z) - Predicting Links on Wikipedia with Anchor Text Information [0.571097144710995]
英語ウィキペディアのいくつかのサブセットにおけるリンク予測の帰納的タスクと帰納的タスクについて検討する。
本稿では,適切な評価サンプリング手法を提案し,いくつかのアルゴリズムを比較した。
論文 参考訳(メタデータ) (2021-05-25T07:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。