論文の概要: Multi-Vector Retrieval as Sparse Alignment
- arxiv url: http://arxiv.org/abs/2211.01267v1
- Date: Wed, 2 Nov 2022 16:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:47:43.215731
- Title: Multi-Vector Retrieval as Sparse Alignment
- Title(参考訳): スパースアライメントとしてのマルチベクトル検索
- Authors: Yujie Qian, Jinhyuk Lee, Sai Meher Karthik Duddu, Zhuyun Dai,
Siddhartha Brahma, Iftekhar Naim, Tao Lei, Vincent Y. Zhao
- Abstract要約: 本稿では,クエリと文書トークンの相互アライメントを疎結合に学習する,新しいマルチベクタ検索モデルを提案する。
エントロピー規則化線形計画法により、疎度を達成するために他の手法よりも優れるスパースなユニタリサリエンスを学習する。
我々のモデルは、しばしば解釈可能なアライメントを生成し、より大きな言語モデルからその性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 21.892007741798853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-vector retrieval models improve over single-vector dual encoders on
many information retrieval tasks. In this paper, we cast the multi-vector
retrieval problem as sparse alignment between query and document tokens. We
propose AligneR, a novel multi-vector retrieval model that learns sparsified
pairwise alignments between query and document tokens (e.g. `dog' vs. `puppy')
and per-token unary saliences reflecting their relative importance for
retrieval. We show that controlling the sparsity of pairwise token alignments
often brings significant performance gains. While most factoid questions
focusing on a specific part of a document require a smaller number of
alignments, others requiring a broader understanding of a document favor a
larger number of alignments. Unary saliences, on the other hand, decide whether
a token ever needs to be aligned with others for retrieval (e.g. `kind' from
`kind of currency is used in new zealand}'). With sparsified unary saliences,
we are able to prune a large number of query and document token vectors and
improve the efficiency of multi-vector retrieval. We learn the sparse unary
saliences with entropy-regularized linear programming, which outperforms other
methods to achieve sparsity. In a zero-shot setting, AligneR scores 51.1 points
nDCG@10, achieving a new retriever-only state-of-the-art on 13 tasks in the
BEIR benchmark. In addition, adapting pairwise alignments with a few examples
(<= 8) further improves the performance up to 15.7 points nDCG@10 for argument
retrieval tasks. The unary saliences of AligneR helps us to keep only 20% of
the document token representations with minimal performance loss. We further
show that our model often produces interpretable alignments and significantly
improves its performance when initialized from larger language models.
- Abstract(参考訳): マルチベクター検索モデルは、多くの情報検索タスクにおいてシングルベクターデュアルエンコーダよりも改善される。
本稿では,クエリと文書トークン間のスパースアライメントとしてマルチベクトル検索問題を提案する。
AligneRは,クエリとドキュメントトークン(例えば 'dog' vs. 'puppy')と,検索における相対的な重要性を反映した1対1の単文サリエンスを同時に学習する,新しいマルチベクタ検索モデルである。
ペアワイズトークンアライメントの幅の制御は、しばしば大きなパフォーマンス向上をもたらすことを示す。
文書の特定の部分に焦点を当てた事実のないほとんどの質問は、アライメントを少なくする必要があるが、文書のより広い理解を必要とする質問は、アライメントを多く好んでいる。
一方、ユニタリ・サリエンス(英語版)は、検索のためにトークンが他のトークンと整列する必要があるかどうかを決定する(例: 'kind' from ‘kind of currency is used in new zealand}')。
分散した単一サリエンスにより、多数のクエリや文書トークンベクターを作成でき、マルチベクトル検索の効率を向上させることができる。
エントロピー規則化線形計画法により、疎度を達成するために他の手法よりも優れるスパースなユニタリサリエンスを学習する。
ゼロショット設定では、AligneRは51.1ポイントのnDCG@10を獲得し、BEIRベンチマークで13のタスクに対して、新しいレトリバーのみの状態を達成する。
さらに、いくつかの例 (<= 8) でペアワイズアライメントを適用することで、引数検索タスクで15.7ポイントのndcg@10のパフォーマンスがさらに向上する。
AligneRの一貫したサリエンスによって、最小パフォーマンスの損失でドキュメントトークン表現の20%しか保持できません。
さらに、我々のモデルは解釈可能なアライメントをしばしば生成し、より大きな言語モデルから初期化する際の性能を大幅に向上することを示した。
関連論文リスト
- Rethinking the Role of Token Retrieval in Multi-Vector Retrieval [22.508682857329912]
ColBERT (Khattab and Zaharia, 2020) のようなマルチベクトル検索モデルは、クエリとドキュメント間のトークンレベルの相互作用を可能にする。
提案するXTR, ConteXtualized Token Retrieverは, 単純かつ斬新で客観的な関数を導入し, まず最も重要な文書トークンを検索する。
論文 参考訳(メタデータ) (2023-04-04T17:37:06Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。