論文の概要: Bridging the Gap Between Indexing and Retrieval for Differentiable
Search Index with Query Generation
- arxiv url: http://arxiv.org/abs/2206.10128v3
- Date: Fri, 7 Jul 2023 04:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 16:15:37.389510
- Title: Bridging the Gap Between Indexing and Retrieval for Differentiable
Search Index with Query Generation
- Title(参考訳): クエリ生成を伴う微分検索インデックスのインデックス化と検索のギャップを埋める
- Authors: Shengyao Zhuang, Houxing Ren, Linjun Shou, Jian Pei, Ming Gong, Guido
Zuccon, and Daxin Jiang
- Abstract要約: Differentiable Search Index (DSI) は情報検索の新たなパラダイムである。
そこで我々は, DSI-QG と呼ばれる, DSI のための簡易かつ効果的な索引付けフレームワークを提案する。
DSI-QG が元の DSI モデルより有意に優れていたことを示す。
- 参考スコア(独自算出の注目度): 98.02743096197402
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Differentiable Search Index (DSI) is an emerging paradigm for information
retrieval. Unlike traditional retrieval architectures where index and retrieval
are two different and separate components, DSI uses a single transformer model
to perform both indexing and retrieval.
In this paper, we identify and tackle an important issue of current DSI
models: the data distribution mismatch that occurs between the DSI indexing and
retrieval processes. Specifically, we argue that, at indexing, current DSI
methods learn to build connections between the text of long documents and the
identifier of the documents, but then retrieval of document identifiers is
based on queries that are commonly much shorter than the indexed documents.
This problem is further exacerbated when using DSI for cross-lingual retrieval,
where document text and query text are in different languages.
To address this fundamental problem of current DSI models, we propose a
simple yet effective indexing framework for DSI, called DSI-QG. When indexing,
DSI-QG represents documents with a number of potentially relevant queries
generated by a query generation model and re-ranked and filtered by a
cross-encoder ranker. The presence of these queries at indexing allows the DSI
models to connect a document identifier to a set of queries, hence mitigating
data distribution mismatches present between the indexing and the retrieval
phases. Empirical results on popular mono-lingual and cross-lingual passage
retrieval datasets show that DSI-QG significantly outperforms the original DSI
model.
- Abstract(参考訳): Differentiable Search Index (DSI) は情報検索の新たなパラダイムである。
インデックスと検索が2つの異なるコンポーネントである従来の検索アーキテクチャとは異なり、dsiは単一のトランスフォーマーモデルを使用してインデックスと検索の両方を実行する。
本稿では,dsiのインデクシングと検索プロセスの間に生じるデータ分散ミスマッチという,現在のdsiモデルの重要な問題を特定し,対処する。
具体的には、インデックス化において、現在のDSIメソッドは、長い文書のテキストと文書の識別子の間の接続を構築することを学習するが、文書の識別子の検索は、インデックス化ドキュメントよりも一般的にはるかに短いクエリに基づいて行われる。
この問題は、文書テキストとクエリテキストが異なる言語に属する言語間検索にDSIを使用する場合、さらに悪化する。
現在の DSI モデルの基本的問題に対処するために,DSI-QG と呼ばれる DSI の簡易かつ効果的なインデックス化フレームワークを提案する。
インデックス作成時に、DSI-QGはクエリ生成モデルによって生成され、クロスエンコーダローダによって再ランク付けされ、フィルタリングされる可能性のあるクエリが多数存在するドキュメントを表す。
インデクシングにおけるこれらのクエリの存在は、dsiモデルがドキュメント識別子と一連のクエリを接続することを可能にし、インデクシングと検索フェーズの間のデータ分散ミスマッチを緩和する。
DSI-QG が元の DSI モデルより有意に優れていたことを示す。
関連論文リスト
- De-DSI: Decentralised Differentiable Search Index [0.0]
De-DSIは、情報検索のための真の分散化で大きな言語モデルを融合するフレームワークである。
分散された環境での差別化検索インデックス(DSI)の概念を使用して、新しいユーザクエリとドキュメント識別子を効率的に接続する。
論文 参考訳(メタデータ) (2024-04-18T14:51:55Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Searching, fast and slow, through product catalogs [5.077235981745305]
本稿では、リアルタイム提案システムと低レイテンシ検索システムの両方を提供するSKU検索のための統一アーキテクチャを提案する。
我々のシステムは、あらゆる面で、デフォルトの検索エンジンによって提供される結果を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-01T12:30:46Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Transformer Memory as a Differentiable Search Index [102.41278496436948]
本稿では,文字列クエリを関連するドシデントに直接マップするテキストからテキストモデルを学ぶ新しいパラダイムであるdiffariable Search Index (DSI)を紹介する。
文書とその識別子の表現方法、訓練手順のバリエーション、モデルとコーパスサイズ間の相互作用について検討する。
論文 参考訳(メタデータ) (2022-02-14T19:12:43Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。