論文の概要: Learning to Rank in Generative Retrieval
- arxiv url: http://arxiv.org/abs/2306.15222v2
- Date: Sat, 16 Dec 2023 13:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:45:40.511384
- Title: Learning to Rank in Generative Retrieval
- Title(参考訳): 生成検索におけるランクの学習
- Authors: Yongqi Li, Nan Yang, Liang Wang, Furu Wei, Wenjie Li
- Abstract要約: 生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
- 参考スコア(独自算出の注目度): 62.91492903161522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative retrieval stands out as a promising new paradigm in text retrieval
that aims to generate identifier strings of relevant passages as the retrieval
target. This generative paradigm taps into powerful generative language models,
distinct from traditional sparse or dense retrieval methods. However, only
learning to generate is insufficient for generative retrieval. Generative
retrieval learns to generate identifiers of relevant passages as an
intermediate goal and then converts predicted identifiers into the final
passage rank list. The disconnect between the learning objective of
autoregressive models and the desired passage ranking target leads to a
learning gap. To bridge this gap, we propose a learning-to-rank framework for
generative retrieval, dubbed LTRGR. LTRGR enables generative retrieval to learn
to rank passages directly, optimizing the autoregressive model toward the final
passage ranking target via a rank loss. This framework only requires an
additional learning-to-rank training phase to enhance current generative
retrieval systems and does not add any burden to the inference stage. We
conducted experiments on three public benchmarks, and the results demonstrate
that LTRGR achieves state-of-the-art performance among generative retrieval
methods. The code and checkpoints are released at
https://github.com/liyongqi67/LTRGR.
- Abstract(参考訳): 生成的検索は、関連する節の識別子文字列を検索対象として生成することを目的とした、テキスト検索における有望な新しいパラダイムとして際立っている。
この生成パラダイムは、従来のスパースや密度の高い検索方法とは異なる、強力な生成言語モデルを利用する。
しかし、生成する学習のみが生成的検索に不十分である。
生成検索は、中間目標として関連する通路の識別子を生成し、予測された識別子を最終通過ランクリストに変換する。
自己回帰モデルの学習目標と所望のパスランキング目標との切り離しは学習ギャップにつながる。
このギャップを埋めるために,LTRGRと呼ばれる生成検索のための学習 to ランクフレームワークを提案する。
LTRGRは、生成的検索が通路を直接ランク付けすることを学び、階数損失により最終通路ランク付け対象に向かって自己回帰モデルを最適化する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とし、推論段階に負担を加えることはない。
筆者らは3つの公開ベンチマーク実験を行い,LTRGRが生成的検索手法の最先端性能を達成することを示した。
コードとチェックポイントはhttps://github.com/liyongqi67/LTRGRで公開されている。
関連論文リスト
- Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - Distillation Enhanced Generative Retrieval [96.69326099136289]
生成的検索はテキスト検索において有望な新しいパラダイムであり、関連する通路の識別子文字列を検索対象として生成する。
本研究は, 蒸留による生成的検索をさらに促進するための有効な方向を特定し, DGR という名称の実行可能なフレームワークを提案する。
本研究では,4つの公開データセットに対して実験を行い,DGRが生成的検索手法の最先端性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-16T15:48:24Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Unsupervised Text Generation by Learning from Search [86.51619839836331]
TGLSは、教師なしテキスト生成のための新しいフレームワークである。
実世界の自然言語生成タスクであるパラフレーズ生成とテキストの形式化におけるTGLSの有効性を示す。
論文 参考訳(メタデータ) (2020-07-09T04:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。