論文の概要: Generative Retrieval as Multi-Vector Dense Retrieval
- arxiv url: http://arxiv.org/abs/2404.00684v1
- Date: Sun, 31 Mar 2024 13:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:20:51.086179
- Title: Generative Retrieval as Multi-Vector Dense Retrieval
- Title(参考訳): 多ベクトルDense Retrievalとしての生成検索
- Authors: Shiguang Wu, Wenda Wei, Mengqi Zhang, Zhumin Chen, Jun Ma, Zhaochun Ren, Maarten de Rijke, Pengjie Ren,
- Abstract要約: 生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
- 参考スコア(独自算出の注目度): 71.75503049199897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative retrieval generates identifiers of relevant documents in an end-to-end manner using a sequence-to-sequence architecture for a given query. The relation between generative retrieval and other retrieval methods, especially those based on matching within dense retrieval models, is not yet fully comprehended. Prior work has demonstrated that generative retrieval with atomic identifiers is equivalent to single-vector dense retrieval. Accordingly, generative retrieval exhibits behavior analogous to hierarchical search within a tree index in dense retrieval when using hierarchical semantic identifiers. However, prior work focuses solely on the retrieval stage without considering the deep interactions within the decoder of generative retrieval. In this paper, we fill this gap by demonstrating that generative retrieval and multi-vector dense retrieval share the same framework for measuring the relevance to a query of a document. Specifically, we examine the attention layer and prediction head of generative retrieval, revealing that generative retrieval can be understood as a special case of multi-vector dense retrieval. Both methods compute relevance as a sum of products of query and document vectors and an alignment matrix. We then explore how generative retrieval applies this framework, employing distinct strategies for computing document token vectors and the alignment matrix. We have conducted experiments to verify our conclusions and show that both paradigms exhibit commonalities of term matching in their alignment matrix.
- Abstract(参考訳): 生成検索は、あるクエリに対してシーケンス・ツー・シーケンスアーキテクチャを用いて、関連するドキュメントの識別子をエンドツーエンドで生成する。
生成的検索法と他の検索法との関係,特に密度の高い検索モデル内のマッチングに基づく検索法は,まだ完全には理解されていない。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
したがって、生成的検索は、階層的セマンティック識別子を使用する場合の高密度検索において、木インデックス内の階層的検索に類似した振舞いを示す。
しかし、先行研究は、生成的検索のデコーダ内での深い相互作用を考慮せずに、検索段階のみに焦点を当てている。
本稿では、生成的検索と多ベクトル密度検索が、文書のクエリとの関連性を測定するのと同じ枠組みを共有していることを示すことで、このギャップを埋める。
具体的には、生成的検索の注意層と予測ヘッドについて検討し、生成的検索が多ベクトル密度検索の特別な場合として理解できることを明らかにする。
どちらの手法も、クエリとドキュメントベクトルとアライメント行列の積の和として関連性を計算する。
次に、文書トークンベクトルとアライメント行列を計算するための異なる戦略を用いて、生成的検索がこのフレームワークをどのように適用するかを考察する。
両パラダイムがアライメント行列における項マッチングの共通性を示すことを示す実験を行った。
関連論文リスト
- Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Generate-and-Retrieve: use your predictions to improve retrieval for
semantic parsing [25.725176422936766]
本稿では,出力が類似した例を検索するGandRを提案する。
GandRはまず、入力ベースの検索で予備予測を生成する。
そして、最終的な予測を生成するために使用される予備予測と同様の出力で例を検索する。
論文 参考訳(メタデータ) (2022-09-29T16:03:29Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。