論文の概要: ACID: Abstractive, Content-Based IDs for Document Retrieval with
Language Models
- arxiv url: http://arxiv.org/abs/2311.08593v1
- Date: Tue, 14 Nov 2023 23:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:52:50.120282
- Title: ACID: Abstractive, Content-Based IDs for Document Retrieval with
Language Models
- Title(参考訳): ACID: 言語モデルによるドキュメント検索のための抽象化されたコンテンツベースID
- Authors: Haoxin Li, Phillip Keung, Daniel Cheng, Jungo Kasai, Noah A. Smith
- Abstract要約: ACIDを導入し、それぞれのドキュメントのIDは、大きな言語モデルによって生成される抽象的なキーフレーズから構成される。
我々はACIDの使用がトップ10とトップ20の精度を15.6%、14.4%改善することを示した。
本研究は,LMを用いた生成検索における人間可読な自然言語IDの有効性を実証するものである。
- 参考スコア(独自算出の注目度): 69.86170930261841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative retrieval (Wang et al., 2022; Tay et al., 2022) is a new approach
for end-to-end document retrieval that directly generates document identifiers
given an input query. Techniques for designing effective, high-quality document
IDs remain largely unexplored. We introduce ACID, in which each document's ID
is composed of abstractive keyphrases generated by a large language model,
rather than an integer ID sequence as done in past work. We compare our method
with the current state-of-the-art technique for ID generation, which produces
IDs through hierarchical clustering of document embeddings. We also examine
simpler methods to generate natural-language document IDs, including the naive
approach of using the first k words of each document as its ID or words with
high BM25 scores in that document. We show that using ACID improves top-10 and
top-20 accuracy by 15.6% and 14.4% (relative) respectively versus the
state-of-the-art baseline on the MSMARCO 100k retrieval task, and 4.4% and 4.0%
respectively on the Natural Questions 100k retrieval task. Our results
demonstrate the effectiveness of human-readable, natural-language IDs in
generative retrieval with LMs. The code for reproducing our results and the
keyword-augmented datasets will be released on formal publication.
- Abstract(参考訳): 生成検索 (Wang et al., 2022; Tay et al., 2022) は、入力クエリが与えられた文書識別子を直接生成するエンドツーエンドの文書検索の新しいアプローチである。
効率的で高品質な文書IDを設計するための技術はほとんど未検討のままである。
それぞれの文書のIDは、過去の作業で行われた整数IDシーケンスではなく、大きな言語モデルによって生成される抽象的なキーフレーズで構成されている。
文書埋め込みの階層的クラスタリングによってIDを生成するID生成の最先端技術と比較する。
また,各文書の最初の k 語をその ID や BM25 スコアの高い単語として用いるという,単純な自然言語文書ID 生成手法についても検討した。
その結果,msmarco 100k検索タスクの最先端ベースラインに対して,acidの使用によりトップ10とトップ20の精度がそれぞれ15.6%,トップ20が14.4%向上し,自然質問100k検索タスクでは4.4%,4.0%向上した。
本研究は,lmsを用いた生成的検索における自然言語idの有効性を示す。
結果とキーワード拡張データセットを再現するコードは、公式発表で公開される。
関連論文リスト
- ASI++: Towards Distributionally Balanced End-to-End Generative Retrieval [29.65717446547002]
ASI++は、新しいエンドツーエンドの生成検索手法である。
バランスの取れたIDの割り当てを同時に学習し、検索性能を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-05-23T07:54:57Z) - Planning Ahead in Generative Retrieval: Guiding Autoregressive Generation through Simultaneous Decoding [23.061797784952855]
本稿では,文書識別子の自動生成を支援する新しい最適化および復号化手法であるPAGを紹介する。
MSMARCO と TREC Deep Learning Track のデータによる実験の結果,PAG は最先端の生成的検索モデルよりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-22T21:50:01Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。