論文の概要: Query-as-context Pre-training for Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2212.09598v1
- Date: Mon, 19 Dec 2022 16:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:26:45.618659
- Title: Query-as-context Pre-training for Dense Passage Retrieval
- Title(参考訳): Dense Passage Retrievalのためのクエリ・アズ・コンテクスト事前学習
- Authors: Xing Wu, Guangyuan Ma, Songlin Hu
- Abstract要約: クエリ・アズ・コンテクストの事前トレーニングでは、予測されたクエリがドキュメントの特別なコンテキストであると仮定する。
コントラスト学習やコンテキストマスクによる自動エンコーディング学習を使用して、ドキュメントとクエリを高密度ベクトルに圧縮する。
この手法は,大規模経路探索ベンチマークで評価され,既存の強いベースラインと比較して大幅に改善されている。
- 参考スコア(独自算出の注目度): 22.217080066754512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a pre-training technique called query-as-context that
uses query prediction to improve dense retrieval. Previous research has applied
query prediction to document expansion in order to alleviate the problem of
lexical mismatch in sparse retrieval. However, query prediction has not yet
been studied in the context of dense retrieval. Query-as-context pre-training
assumes that the predicted query is a special context for the document and uses
contrastive learning or contextual masked auto-encoding learning to compress
the document and query into dense vectors. The technique is evaluated on
large-scale passage retrieval benchmarks and shows considerable improvements
compared to existing strong baselines such as coCondenser and CoT-MAE,
demonstrating its effectiveness. Our code will be available at
https://github.com/caskcsg/ir/tree/main/cotmae-qc .
- Abstract(参考訳): 本稿では,クエリ・アズ・コンテクストと呼ばれる事前学習手法を提案する。
これまでの研究は、文書拡張にクエリ予測を適用し、スパース検索における語彙ミスマッチの問題を緩和してきた。
しかし,厳密検索の文脈ではまだクエリ予測が研究されていない。
クエリ・アズ・コンテクストの事前トレーニングでは、予測クエリがドキュメントの特別なコンテキストであると仮定し、コントラスト学習やコンテキストマスク付き自動エンコーディング学習を使用してドキュメントとクエリを圧縮し、密度の高いベクトルにクエリする。
本手法は,大規模通路検索ベンチマークを用いて評価し,cocondenser や cot-mae などの既存の強力なベースラインと比較してかなり改善し,その効果を示す。
私たちのコードはhttps://github.com/caskcsg/ir/tree/main/cotmae-qcで利用可能です。
関連論文リスト
- Improve Dense Passage Retrieval with Entailment Tuning [22.39221206192245]
検索システムの鍵となるのは、クエリとパスペアの関連スコアを計算することである。
我々は、NLIタスクにおけるエンテーメントの概念と、関連性の主要なクラスが一致していることを観察した。
我々は,高密度レトリバーの埋め込みを改善するために,エンテーメントチューニングと呼ばれる手法を設計する。
論文 参考訳(メタデータ) (2024-10-21T09:18:30Z) - Few-shot Prompting for Pairwise Ranking: An Effective Non-Parametric Retrieval Model [18.111868378615206]
本稿では,複雑な訓練パイプラインを必要とせず,教師付きモデルに近い性能を達成できる一対数ショットローダを提案する。
また,複雑なトレーニングパイプラインを必要とせず,教師付きモデルに近い性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T11:19:09Z) - Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - Revisiting and Maximizing Temporal Knowledge in Semi-supervised Semantic Segmentation [7.005068872406135]
平均教師と共同学習に基づくアプローチは、確認バイアスと結合問題を緩和するために用いられる。
これらのアプローチは、複雑なトレーニングパイプラインとかなりの計算負担を伴うことが多い。
本稿では,トレーニングプロセス中に得られた時間的知識を最大限活用することにより,制約を効果的に緩和するPrevMatchフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-31T03:54:59Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - Hyperlink-induced Pre-training for Passage Retrieval in Open-domain
Question Answering [53.381467950545606]
HyperLink-induced Pre-training (HLP) は、Webドキュメント内のハイパーリンクベースのトポロジーによって引き起こされるテキスト関連性によって、高密度検索を事前訓練する手法である。
本稿では,双対リンクとコメンテーションのハイパーリンクに基づく構造が,大規模事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-14T09:09:49Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。