論文の概要: Optimizing Test-Time Query Representations for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2205.12680v3
- Date: Sun, 28 May 2023 06:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 04:19:21.038761
- Title: Optimizing Test-Time Query Representations for Dense Retrieval
- Title(参考訳): ディエンス検索のためのテスト時間クエリ表現の最適化
- Authors: Mujeen Sung, Jungsoo Park, Jaewoo Kang, Danqi Chen, Jinhyuk Lee
- Abstract要約: TOURは、テスト時間検索の結果によってガイドされるクエリ表現を改善する。
我々は、クロスエンコーダのリランカを利用して、検索結果よりもきめ細かい擬似ラベルを提供する。
TOURは1.3-2.4倍高速で実行しながら、常に最大2.0%のダイレクトリランクを改善する。
- 参考スコア(独自算出の注目度): 34.61821330771046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments of dense retrieval rely on quality representations of
queries and contexts from pre-trained query and context encoders. In this
paper, we introduce TOUR (Test-Time Optimization of Query Representations),
which further optimizes instance-level query representations guided by signals
from test-time retrieval results. We leverage a cross-encoder re-ranker to
provide fine-grained pseudo labels over retrieval results and iteratively
optimize query representations with gradient descent. Our theoretical analysis
reveals that TOUR can be viewed as a generalization of the classical Rocchio
algorithm for pseudo relevance feedback, and we present two variants that
leverage pseudo-labels as hard binary or soft continuous labels. We first apply
TOUR on phrase retrieval with our proposed phrase re-ranker, and also evaluate
its effectiveness on passage retrieval with an off-the-shelf re-ranker. TOUR
greatly improves end-to-end open-domain question answering accuracy, as well as
passage retrieval performance. TOUR also consistently improves direct
re-ranking by up to 2.0% while running 1.3-2.4x faster with an efficient
implementation.
- Abstract(参考訳): 高密度検索の最近の進展は,事前学習されたクエリとコンテキストエンコーダからのクエリとコンテキストの品質表現に依存している。
本稿では,テスト時検索結果からの信号により誘導されるインスタンスレベルのクエリ表現をさらに最適化する tour (test-time optimization of query representations) を提案する。
クロスエンコーダの再ランク付けを利用して,検索結果にきめ細かい擬似ラベルを提供し,勾配降下を伴うクエリ表現を反復的に最適化する。
理論的解析により,TOURは疑似関連性フィードバックのための古典的ロッキオアルゴリズムの一般化と見なすことができ,擬似ラベルをハードバイナリあるいはソフト連続ラベルとして活用する2つの変種を示す。
提案する句再ランク付け器を用いて,まず句検索に tour を適用し,本手法の有効性を評価した。
TOURは、エンドツーエンドのオープンドメイン質問応答精度を大幅に向上し、また、経路検索性能も向上する。
さらにTOURは、より効率的な実装で1.3-2.4倍高速に実行しながら、最大2.0%のダイレクトリランクを改善する。
関連論文リスト
- Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Learning Decoupled Retrieval Representation for Nearest Neighbour Neural
Machine Translation [16.558519886325623]
kNN-MTは、テスト時に単語レベルの表現を取得することで、外部コーパスをうまく組み込む。
本稿では,これら2つのタスクの表現の結合が,きめ細かな検索に準最適であることを強調する。
教師付きコントラスト学習を利用して、元の文脈表現から派生した特徴的表現を学習する。
論文 参考訳(メタデータ) (2022-09-19T03:19:38Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。