論文の概要: Query-as-context Pre-training for Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2212.09598v1
- Date: Mon, 19 Dec 2022 16:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:26:45.618659
- Title: Query-as-context Pre-training for Dense Passage Retrieval
- Title(参考訳): Dense Passage Retrievalのためのクエリ・アズ・コンテクスト事前学習
- Authors: Xing Wu, Guangyuan Ma, Songlin Hu
- Abstract要約: クエリ・アズ・コンテクストの事前トレーニングでは、予測されたクエリがドキュメントの特別なコンテキストであると仮定する。
コントラスト学習やコンテキストマスクによる自動エンコーディング学習を使用して、ドキュメントとクエリを高密度ベクトルに圧縮する。
この手法は,大規模経路探索ベンチマークで評価され,既存の強いベースラインと比較して大幅に改善されている。
- 参考スコア(独自算出の注目度): 22.217080066754512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a pre-training technique called query-as-context that
uses query prediction to improve dense retrieval. Previous research has applied
query prediction to document expansion in order to alleviate the problem of
lexical mismatch in sparse retrieval. However, query prediction has not yet
been studied in the context of dense retrieval. Query-as-context pre-training
assumes that the predicted query is a special context for the document and uses
contrastive learning or contextual masked auto-encoding learning to compress
the document and query into dense vectors. The technique is evaluated on
large-scale passage retrieval benchmarks and shows considerable improvements
compared to existing strong baselines such as coCondenser and CoT-MAE,
demonstrating its effectiveness. Our code will be available at
https://github.com/caskcsg/ir/tree/main/cotmae-qc .
- Abstract(参考訳): 本稿では,クエリ・アズ・コンテクストと呼ばれる事前学習手法を提案する。
これまでの研究は、文書拡張にクエリ予測を適用し、スパース検索における語彙ミスマッチの問題を緩和してきた。
しかし,厳密検索の文脈ではまだクエリ予測が研究されていない。
クエリ・アズ・コンテクストの事前トレーニングでは、予測クエリがドキュメントの特別なコンテキストであると仮定し、コントラスト学習やコンテキストマスク付き自動エンコーディング学習を使用してドキュメントとクエリを圧縮し、密度の高いベクトルにクエリする。
本手法は,大規模通路検索ベンチマークを用いて評価し,cocondenser や cot-mae などの既存の強力なベースラインと比較してかなり改善し,その効果を示す。
私たちのコードはhttps://github.com/caskcsg/ir/tree/main/cotmae-qcで利用可能です。
関連論文リスト
- In-Context Pretraining: Language Modeling Beyond Document Boundaries [141.22670357089385]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Topic-DPR: Topic-based Prompts for Dense Passage Retrieval [6.265789210037749]
トピックベースのプロンプトを用いた高密度経路探索モデルであるTopic-DPRを提案する。
本稿では, 半構造化データを利用して高密度検索効率を向上させる, 新規な正負サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T13:45:24Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - Hyperlink-induced Pre-training for Passage Retrieval in Open-domain
Question Answering [53.381467950545606]
HyperLink-induced Pre-training (HLP) は、Webドキュメント内のハイパーリンクベースのトポロジーによって引き起こされるテキスト関連性によって、高密度検索を事前訓練する手法である。
本稿では,双対リンクとコメンテーションのハイパーリンクに基づく構造が,大規模事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-14T09:09:49Z) - Learning To Retrieve Prompts for In-Context Learning [33.176481861880724]
本稿では,注釈付きデータとLMを用いたテキスト内学習のためのプロンプトを効率よく検索する手法を提案する。
言語発話を意味表現にマッピングする3つのシーケンス・ツー・シーケンスタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-16T05:17:56Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。