論文の概要: On Single and Multiple Representations in Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2108.06279v1
- Date: Fri, 13 Aug 2021 15:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 15:09:26.039385
- Title: On Single and Multiple Representations in Dense Passage Retrieval
- Title(参考訳): Dense Passage Retrievalにおける単一および複数表現について
- Authors: Craig Macdonald, Nicola Tonellotto, Iadh Ounis
- Abstract要約: 単一の表現と複数の表現の2つの密度の高い検索ファミリが明らかになってきた。
本稿では,各手法が互いにw.r.t,w.r.t,BM25ベースラインをそれぞれ実行している状況について,それらの比較効果を直接研究する。
また、複数の表現は、BM25や定義クエリにとって最も難しいクエリに対して、単一の表現よりも改善されていることを示す。
- 参考スコア(独自算出の注目度): 30.303705563808386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of contextualised language models has brought gains in search
effectiveness, not just when applied for re-ranking the output of classical
weighting models such as BM25, but also when used directly for passage indexing
and retrieval, a technique which is called dense retrieval. In the existing
literature in neural ranking, two dense retrieval families have become
apparent: single representation, where entire passages are represented by a
single embedding (usually BERT's [CLS] token, as exemplified by the recent ANCE
approach), or multiple representations, where each token in a passage is
represented by its own embedding (as exemplified by the recent ColBERT
approach). These two families have not been directly compared. However, because
of the likely importance of dense retrieval moving forward, a clear
understanding of their advantages and disadvantages is paramount. To this end,
this paper contributes a direct study on their comparative effectiveness,
noting situations where each method under/over performs w.r.t. each other, and
w.r.t. a BM25 baseline. We observe that, while ANCE is more efficient than
ColBERT in terms of response time and memory usage, multiple representations
are statistically more effective than the single representations for MAP and
MRR@10. We also show that multiple representations obtain better improvements
than single representations for queries that are the hardest for BM25, as well
as for definitional queries, and those with complex information needs.
- Abstract(参考訳): 文脈化された言語モデルの出現は、bm25のような古典的重み付けモデルの出力の再ランキングに適用されるだけでなく、通路の索引付けや検索に直接使用される場合にも、検索の有効性が向上した。
ニューラルランキングの既存の文献では、2つの高密度な検索ファミリが明らかになっている: 単一表現: 全通路が単一の埋め込み(通常BERTの[CLS]トークンで表される)、または複数の表現: 通路の各トークンがそれぞれの埋め込みで表される(最近のColBERTアプローチで例示される)。
この2家は直接比較されていない。
しかし,高度な検索が今後重要になる可能性から,その利点と欠点を明確に理解することが重要である。
そこで本研究では,各手法がw.r.tを行う状況について,その比較効果に関する直接研究を行っている。
お互い、w.r.t.
bm25のベースライン。
応答時間やメモリ使用量の観点からは, ANCE は ColBERT よりも効率的であるが, 複数の表現はMAP や MRR@10 の単一の表現よりも統計的に効率的である。
また,BM25 では最も難しいクエリや定義クエリ,複雑な情報を必要とするクエリに対して,複数の表現が単一表現よりも改善されていることを示す。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - A Replication Study of Dense Passage Retriever [32.192420072129636]
Karpukhinらによって提案された高密度通過レトリバー(DPR)技術について研究する。
(2020) エンドツーエンドのオープンドメイン質問応答。
本稿では,著者らによるモデルチェックポイントから本研究の再現性について検討する。
私たちは、オリジナルの作業とまったく同じモデルを使って、エンドツーエンドの質問応答の有効性を改善することができます。
論文 参考訳(メタデータ) (2021-04-12T18:10:39Z) - Probabilistic Embeddings for Cross-Modal Retrieval [38.04859099157609]
クロスモーダル検索法は、複数のモダリティからのサンプルの共通表現空間を構築する。
本稿では、決定論的関数はそのような一対多対応を捉えるのに十分ではないと主張する。
代わりに、確率的クロスモーダル埋め込み (PCME) を用いて、異なるモードからのサンプルを共通の埋め込み空間内の確率分布として表現する。
論文 参考訳(メタデータ) (2021-01-13T13:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。