論文の概要: Refining Query Representations for Dense Retrieval at Test Time
- arxiv url: http://arxiv.org/abs/2205.12680v1
- Date: Wed, 25 May 2022 11:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-05-26 15:10:27.536465
- Title: Refining Query Representations for Dense Retrieval at Test Time
- Title(参考訳): テスト時間におけるDense Retrievalのためのクエリ表現の精細化
- Authors: Mujeen Sung, Jungsoo Park, Jaewoo Kang, Danqi Chen, Jinhyuk Lee
- Abstract要約: テスト時にインスタンスレベルのクエリ表現を洗練するフレームワークを導入する。
情報検索における擬似関連フィードバック(PRF)と同様の検索結果に基づいて,クエリ表現を最適化する。
我々のフレームワークは古典的ロッキーオのPRFアルゴリズムの一般化と見なすことができる。
- 参考スコア(独自算出の注目度): 34.61821330771046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrieval uses a contrastive learning framework to learn dense
representations of queries and contexts. Trained encoders are directly used for
each test query, but they often fail to accurately represent out-of-domain
queries. In this paper, we introduce a framework that refines instance-level
query representations at test time, with only the signals coming from the
intermediate retrieval results. We optimize the query representation based on
the retrieval result similar to pseudo relevance feedback (PRF) in information
retrieval. Specifically, we adopt a cross-encoder labeler to provide pseudo
labels over the retrieval result and iteratively refine the query
representation with a gradient descent method, treating each test query as a
single data point to train on. Our theoretical analysis reveals that our
framework can be viewed as a generalization of the classical Rocchio's
algorithm for PRF, which leads us to propose interesting variants of our
method. We show that our test-time query refinement strategy improves the
performance of phrase retrieval (+8.1% Acc@1) and passage retrieval (+3.7%
Acc@20) for open-domain QA with large improvements on out-of-domain queries.
- Abstract(参考訳): Dense Searchは、コントラスト学習フレームワークを使用して、クエリやコンテキストの密度の高い表現を学習する。
トレーニングされたエンコーダは各テストクエリに直接使用されるが、ドメイン外のクエリを正確に表現できないことが多い。
本稿では,中間検索結果からの信号のみを用いて,テスト時にインスタンスレベルのクエリ表現を洗練するフレームワークを提案する。
情報検索における擬似関連フィードバック(PRF)と同様の検索結果に基づいて,クエリ表現を最適化する。
具体的には、クロスエンコーダラベルを用いて、検索結果上の擬似ラベルを提供し、クエリ表現を勾配降下法で反復的に洗練し、各テストクエリをトレーニングする単一データポイントとして扱う。
理論的解析により,我々のフレームワークは古典的ロッキーオのPRFアルゴリズムの一般化と見なせることが明らかとなり,本手法の興味深い変種が提案される。
提案手法は,オープンドメインqaにおけるフレーズ検索(+8.1% acc@1)とパス検索(+3.7% acc@20)の性能向上と,ドメイン外クエリの大幅な改善を実現する。
関連論文リスト
- Gaussian Match-and-Copy: A Minimalist Benchmark for Studying Transformer Induction [44.83333974000826]
本稿では,2階相関信号による長距離検索を分離するミニマリストベンチマークを提案する。
数値的な研究により、このタスクは変換器のマッチング・アンド・コピー回路開発における重要な質的な側面を保っていることが示されている。
明示的な技術的条件下での経験的損失を解消するGD軌道に対して,この極大アライメントを証明した。
論文 参考訳(メタデータ) (2026-02-07T14:18:11Z) - RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval [99.33724613432922]
本稿では,ビデオ検索のための推論に基づくリランカであるRANKVIDEOを紹介する。
RANKVIDEOは、関連性を評価するためにビデオコンテンツを使用するクエリ-ビデオペアを明示的に理由付けている。
大規模なMultiVENT 2.0ベンチマークの実験では、RANKVIDEOは2段階のフレームワーク内での検索性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-02T18:40:37Z) - Multivector Reranking in the Era of Strong First-Stage Retrievers [11.098422338598454]
2つの公開データセット上で、最先端のマルチベクタ検索手法を再現する。
トークンレベルの集合フェーズを単一ベクトル文書検索器に置き換えることで,より小さく,より意味的に一貫性のある候補セットが生成されることを示す。
我々の2段階のアプローチは、最先端のマルチベクター検索システムに対して24ドル以上のスピードアップを実現し、同等または優れた検索品質を維持しています。
論文 参考訳(メタデータ) (2026-01-08T18:22:18Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Learning Decoupled Retrieval Representation for Nearest Neighbour Neural
Machine Translation [16.558519886325623]
kNN-MTは、テスト時に単語レベルの表現を取得することで、外部コーパスをうまく組み込む。
本稿では,これら2つのタスクの表現の結合が,きめ細かな検索に準最適であることを強調する。
教師付きコントラスト学習を利用して、元の文脈表現から派生した特徴的表現を学習する。
論文 参考訳(メタデータ) (2022-09-19T03:19:38Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。