論文の概要: Refining Query Representations for Dense Retrieval at Test Time
- arxiv url: http://arxiv.org/abs/2205.12680v1
- Date: Wed, 25 May 2022 11:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 15:10:27.536465
- Title: Refining Query Representations for Dense Retrieval at Test Time
- Title(参考訳): テスト時間におけるDense Retrievalのためのクエリ表現の精細化
- Authors: Mujeen Sung, Jungsoo Park, Jaewoo Kang, Danqi Chen, Jinhyuk Lee
- Abstract要約: テスト時にインスタンスレベルのクエリ表現を洗練するフレームワークを導入する。
情報検索における擬似関連フィードバック(PRF)と同様の検索結果に基づいて,クエリ表現を最適化する。
我々のフレームワークは古典的ロッキーオのPRFアルゴリズムの一般化と見なすことができる。
- 参考スコア(独自算出の注目度): 34.61821330771046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrieval uses a contrastive learning framework to learn dense
representations of queries and contexts. Trained encoders are directly used for
each test query, but they often fail to accurately represent out-of-domain
queries. In this paper, we introduce a framework that refines instance-level
query representations at test time, with only the signals coming from the
intermediate retrieval results. We optimize the query representation based on
the retrieval result similar to pseudo relevance feedback (PRF) in information
retrieval. Specifically, we adopt a cross-encoder labeler to provide pseudo
labels over the retrieval result and iteratively refine the query
representation with a gradient descent method, treating each test query as a
single data point to train on. Our theoretical analysis reveals that our
framework can be viewed as a generalization of the classical Rocchio's
algorithm for PRF, which leads us to propose interesting variants of our
method. We show that our test-time query refinement strategy improves the
performance of phrase retrieval (+8.1% Acc@1) and passage retrieval (+3.7%
Acc@20) for open-domain QA with large improvements on out-of-domain queries.
- Abstract(参考訳): Dense Searchは、コントラスト学習フレームワークを使用して、クエリやコンテキストの密度の高い表現を学習する。
トレーニングされたエンコーダは各テストクエリに直接使用されるが、ドメイン外のクエリを正確に表現できないことが多い。
本稿では,中間検索結果からの信号のみを用いて,テスト時にインスタンスレベルのクエリ表現を洗練するフレームワークを提案する。
情報検索における擬似関連フィードバック(PRF)と同様の検索結果に基づいて,クエリ表現を最適化する。
具体的には、クロスエンコーダラベルを用いて、検索結果上の擬似ラベルを提供し、クエリ表現を勾配降下法で反復的に洗練し、各テストクエリをトレーニングする単一データポイントとして扱う。
理論的解析により,我々のフレームワークは古典的ロッキーオのPRFアルゴリズムの一般化と見なせることが明らかとなり,本手法の興味深い変種が提案される。
提案手法は,オープンドメインqaにおけるフレーズ検索(+8.1% acc@1)とパス検索(+3.7% acc@20)の性能向上と,ドメイン外クエリの大幅な改善を実現する。
関連論文リスト
- Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Learning Decoupled Retrieval Representation for Nearest Neighbour Neural
Machine Translation [16.558519886325623]
kNN-MTは、テスト時に単語レベルの表現を取得することで、外部コーパスをうまく組み込む。
本稿では,これら2つのタスクの表現の結合が,きめ細かな検索に準最適であることを強調する。
教師付きコントラスト学習を利用して、元の文脈表現から派生した特徴的表現を学習する。
論文 参考訳(メタデータ) (2022-09-19T03:19:38Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。