論文の概要: Planning Ahead in Generative Retrieval: Guiding Autoregressive Generation through Simultaneous Decoding
- arxiv url: http://arxiv.org/abs/2404.14600v1
- Date: Mon, 22 Apr 2024 21:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 17:48:00.518852
- Title: Planning Ahead in Generative Retrieval: Guiding Autoregressive Generation through Simultaneous Decoding
- Title(参考訳): 生成検索の先駆け:同時復号化による自己回帰生成の誘導
- Authors: Hansi Zeng, Chen Luo, Hamed Zamani,
- Abstract要約: 本稿では,文書識別子の自動生成を支援する新しい最適化および復号化手法であるPAGを紹介する。
MSMARCO と TREC Deep Learning Track のデータによる実験の結果,PAG は最先端の生成的検索モデルよりも大きなマージンで優れていることがわかった。
- 参考スコア(独自算出の注目度): 23.061797784952855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces PAG-a novel optimization and decoding approach that guides autoregressive generation of document identifiers in generative retrieval models through simultaneous decoding. To this aim, PAG constructs a set-based and sequential identifier for each document. Motivated by the bag-of-words assumption in information retrieval, the set-based identifier is built on lexical tokens. The sequential identifier, on the other hand, is obtained via quantizing relevance-based representations of documents. Extensive experiments on MSMARCO and TREC Deep Learning Track data reveal that PAG outperforms the state-of-the-art generative retrieval model by a large margin (e.g., 15.6% MRR improvements on MS MARCO), while achieving 22x speed up in terms of query latency.
- Abstract(参考訳): 本稿では、同時復号化による生成検索モデルにおける文書識別子の自動回帰生成を導く新しい最適化および復号化手法であるPAGを提案する。
この目的のために、PAGは各ドキュメントに対してセットベースかつシーケンシャルな識別子を構築する。
情報検索における単語のバック・オブ・ワードの仮定に触発されたセットベース識別子は、語彙トークン上に構築される。
一方、シーケンシャル識別子は、ドキュメントの関連性に基づく表現を定量化することで得られる。
MSMARCO と TREC Deep Learning Track データの大規模な実験により、PAG はクエリレイテンシの22倍の速度で、最先端の生成検索モデルよりも大きなマージン(例えば、MS MARCO の15.6% MRR の改善)を達成していることが明らかになった。
関連論文リスト
- Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Corrective Retrieval Augmented Generation [39.371798735872865]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - ACID: Abstractive, Content-Based IDs for Document Retrieval with
Language Models [69.86170930261841]
ACIDを導入し、それぞれのドキュメントのIDは、大きな言語モデルによって生成される抽象的なキーフレーズから構成される。
我々はACIDの使用がトップ10とトップ20の精度を15.6%、14.4%改善することを示した。
本研究は,LMを用いた生成検索における人間可読な自然言語IDの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - GQE-PRF: Generative Query Expansion with Pseudo-Relevance Feedback [8.142861977776256]
PRFに基づくクエリ拡張にテキスト生成モデルを効果的に統合する新しい手法を提案する。
提案手法では,初期クエリと擬似関連フィードバックの両方を条件としたニューラルテキスト生成モデルを用いて,拡張クエリ項を生成する。
2つのベンチマークデータセットを用いて,情報検索タスクに対するアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2021-08-13T01:09:02Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。