論文の概要: Bridging the Gap Between Indexing and Retrieval for Differentiable
Search Index with Query Generation
- arxiv url: http://arxiv.org/abs/2206.10128v1
- Date: Tue, 21 Jun 2022 06:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:38:11.207097
- Title: Bridging the Gap Between Indexing and Retrieval for Differentiable
Search Index with Query Generation
- Title(参考訳): クエリ生成を伴う微分検索インデックスのインデックス化と検索のギャップを埋める
- Authors: Shengyao Zhuang, Houxing Ren, Linjun Shou, Jian Pei, Ming Gong, Guido
Zuccon, and Daxin Jiang
- Abstract要約: Differentiable Search Index (DSI) は情報検索の新しいパラダイムである。
我々は、DSIインデックスと検索プロセスの間に発生するデータ分散ミスマッチという、現在のDSIモデルの重要な問題に取り組む。
DSI-QG と呼ばれる DSI のための簡易かつ効果的なインデックス化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 98.02743096197402
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Differentiable Search Index (DSI) is a new, emerging paradigm for
information retrieval. Unlike traditional retrieval architectures where index
and retrieval are two different and separate components, DSI uses a single
transformer model to perform both indexing and retrieval. In this paper, we
identify and tackle an important issue of current DSI models: the data
distribution mismatch that occurs between the DSI indexing and retrieval
processes. Specifically, we argue that, at indexing, current DSI methods learn
to build connections between long document texts and their identifies, but then
at retrieval, short query texts are provided to DSI models to perform the
retrieval of the document identifiers. This problem is further exacerbated when
using DSI for cross-lingual retrieval, where document text and query text are
in different languages. To address this fundamental problem of current DSI
models we propose a simple yet effective indexing framework for DSI called
DSI-QG. In DSI-QG, documents are represented by a number of relevant queries
generated by a query generation model at indexing time. This allows DSI models
to connect a document identifier to a set of query texts when indexing, hence
mitigating data distribution mismatches present between the indexing and the
retrieval phases. Empirical results on popular mono-lingual and cross-lingual
passage retrieval benchmark datasets show that DSI-QG significantly outperforms
the original DSI model.
- Abstract(参考訳): 微分可能検索インデックス(英: differentiable search index, dsi)は、情報検索の新しいパラダイムである。
インデックスと検索が2つの異なるコンポーネントである従来の検索アーキテクチャとは異なり、dsiは単一のトランスフォーマーモデルを使用してインデックスと検索の両方を実行する。
本稿では,dsiのインデクシングと検索プロセスの間に生じるデータ分散ミスマッチという,現在のdsiモデルの重要な問題を特定し,対処する。
具体的には、インデックス化において、現在のDSIメソッドは、長い文書テキストとその識別との接続を構築することを学習するが、検索時には、短いクエリテキストがDSIモデルに提供され、文書識別子の検索を行う。
この問題は、文書テキストとクエリテキストが異なる言語に属する言語間検索にDSIを使用する場合、さらに悪化する。
現在のDSIモデルの基本的問題に対処するため、DSI-QGと呼ばれるDSIのための簡易かつ効果的なインデックス化フレームワークを提案する。
dsi-qgでは、ドキュメントはインデックス化時にクエリ生成モデルによって生成される関連クエリによって表現される。
これにより、dsiモデルがインデックス化時に文書識別子とクエリテキストの集合を接続できるため、インデックス化と検索フェーズの間に存在するデータ分散ミスマッチを緩和できる。
DSI-QG が元の DSI モデルより有意に優れていたことを示す。
関連論文リスト
- De-DSI: Decentralised Differentiable Search Index [0.0]
De-DSIは、情報検索のための真の分散化で大きな言語モデルを融合するフレームワークである。
分散された環境での差別化検索インデックス(DSI)の概念を使用して、新しいユーザクエリとドキュメント識別子を効率的に接続する。
論文 参考訳(メタデータ) (2024-04-18T14:51:55Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Searching, fast and slow, through product catalogs [5.077235981745305]
本稿では、リアルタイム提案システムと低レイテンシ検索システムの両方を提供するSKU検索のための統一アーキテクチャを提案する。
我々のシステムは、あらゆる面で、デフォルトの検索エンジンによって提供される結果を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-01T12:30:46Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Transformer Memory as a Differentiable Search Index [102.41278496436948]
本稿では,文字列クエリを関連するドシデントに直接マップするテキストからテキストモデルを学ぶ新しいパラダイムであるdiffariable Search Index (DSI)を紹介する。
文書とその識別子の表現方法、訓練手順のバリエーション、モデルとコーパスサイズ間の相互作用について検討する。
論文 参考訳(メタデータ) (2022-02-14T19:12:43Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。