論文の概要: Query-as-context Pre-training for Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2212.09598v3
- Date: Sun, 15 Oct 2023 03:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 06:30:46.160250
- Title: Query-as-context Pre-training for Dense Passage Retrieval
- Title(参考訳): Dense Passage Retrievalのためのクエリ・アズ・コンテクスト事前学習
- Authors: Xing Wu, Guangyuan Ma, Wanhui Qian, Zijia Lin, Songlin Hu
- Abstract要約: 文脈教師付き事前学習を用いて,高密度経路探索の性能向上のための手法が開発されている。
本稿では,クエリ・アズ・コンテクスト事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 27.733665432319803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, methods have been developed to improve the performance of dense
passage retrieval by using context-supervised pre-training. These methods
simply consider two passages from the same document to be relevant, without
taking into account the possibility of weakly correlated pairs. Thus, this
paper proposes query-as-context pre-training, a simple yet effective
pre-training technique to alleviate the issue. Query-as-context pre-training
assumes that the query derived from a passage is more likely to be relevant to
that passage and forms a passage-query pair. These passage-query pairs are then
used in contrastive or generative context-supervised pre-training. The
pre-trained models are evaluated on large-scale passage retrieval benchmarks
and out-of-domain zero-shot benchmarks. Experimental results show that
query-as-context pre-training brings considerable gains and meanwhile speeds up
training, demonstrating its effectiveness and efficiency. Our code will be
available at https://github.com/caskcsg/ir/tree/main/cotmae-qc .
- Abstract(参考訳): 近年,文脈教師付き事前学習を用いて,高密度経路探索の性能向上を図る手法が開発されている。
これらの方法は、弱相関対の可能性を考慮することなく、単に同じ文書からの2つの節が関連していると考える。
そこで本稿では,この問題を軽減するための簡易かつ効果的な事前学習手法であるquery-as-context pre-trainingを提案する。
Query-as-context プリトレーニングでは、パスから派生したクエリが、そのパスに関連しやすく、パスクエリペアが形成されることを前提としている。
これらのパスクエリペアは、コントラスト的または生成的コンテキスト管理事前トレーニングで使用される。
事前訓練されたモデルは、大規模通過探索ベンチマークとドメイン外ゼロショットベンチマークで評価される。
実験結果から,クエリ・アズ・コンテクスト事前学習はトレーニングを高速化し,その効果と効率性を示した。
私たちのコードはhttps://github.com/caskcsg/ir/tree/main/cotmae-qcで利用可能です。
関連論文リスト
- Improve Dense Passage Retrieval with Entailment Tuning [22.39221206192245]
検索システムの鍵となるのは、クエリとパスペアの関連スコアを計算することである。
我々は、NLIタスクにおけるエンテーメントの概念と、関連性の主要なクラスが一致していることを観察した。
我々は,高密度レトリバーの埋め込みを改善するために,エンテーメントチューニングと呼ばれる手法を設計する。
論文 参考訳(メタデータ) (2024-10-21T09:18:30Z) - Few-shot Prompting for Pairwise Ranking: An Effective Non-Parametric Retrieval Model [18.111868378615206]
本稿では,複雑な訓練パイプラインを必要とせず,教師付きモデルに近い性能を達成できる一対数ショットローダを提案する。
また,複雑なトレーニングパイプラインを必要とせず,教師付きモデルに近い性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T11:19:09Z) - Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - Revisiting and Maximizing Temporal Knowledge in Semi-supervised Semantic Segmentation [7.005068872406135]
平均教師と共同学習に基づくアプローチは、確認バイアスと結合問題を緩和するために用いられる。
これらのアプローチは、複雑なトレーニングパイプラインとかなりの計算負担を伴うことが多い。
本稿では,トレーニングプロセス中に得られた時間的知識を最大限活用することにより,制約を効果的に緩和するPrevMatchフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-31T03:54:59Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - Hyperlink-induced Pre-training for Passage Retrieval in Open-domain
Question Answering [53.381467950545606]
HyperLink-induced Pre-training (HLP) は、Webドキュメント内のハイパーリンクベースのトポロジーによって引き起こされるテキスト関連性によって、高密度検索を事前訓練する手法である。
本稿では,双対リンクとコメンテーションのハイパーリンクに基づく構造が,大規模事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-14T09:09:49Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。