論文の概要: Learning to Rank in Generative Retrieval
- arxiv url: http://arxiv.org/abs/2306.15222v1
- Date: Tue, 27 Jun 2023 05:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 14:28:18.286105
- Title: Learning to Rank in Generative Retrieval
- Title(参考訳): 生成検索におけるランクの学習
- Authors: Yongqi Li, Nan Yang, Liang Wang, Furu Wei, Wenjie Li
- Abstract要約: 生成的検索はテキスト検索において有望な新しいパラダイムであり、関連する通路の識別子文字列を検索対象として生成する。
生成的検索と古典的学習からランクへのパラダイムを組み合わせた新しいフレームワーク LTRGR を提案する。
提案手法では,自動回帰モデルを最適通過ランキングに向けて直接最適化する,通過ランク損失を用いた自己回帰モデルを訓練する。
- 参考スコア(独自算出の注目度): 78.38443356800848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative retrieval is a promising new paradigm in text retrieval that
generates identifier strings of relevant passages as the retrieval target. This
paradigm leverages powerful generation models and represents a new paradigm
distinct from traditional learning-to-rank methods. However, despite its rapid
development, current generative retrieval methods are still limited. They
typically rely on a heuristic function to transform predicted identifiers into
a passage rank list, which creates a gap between the learning objective of
generative retrieval and the desired passage ranking target. Moreover, the
inherent exposure bias problem of text generation also persists in generative
retrieval. To address these issues, we propose a novel framework, called LTRGR,
that combines generative retrieval with the classical learning-to-rank
paradigm. Our approach involves training an autoregressive model using a
passage rank loss, which directly optimizes the autoregressive model toward the
optimal passage ranking. This framework only requires an additional training
step to enhance current generative retrieval systems and does not add any
burden to the inference stage. We conducted experiments on three public
datasets, and our results demonstrate that LTRGR achieves state-of-the-art
performance among generative retrieval methods, indicating its effectiveness
and robustness.
- Abstract(参考訳): 生成的検索はテキスト検索において有望な新しいパラダイムであり、関連する通路の識別子文字列を検索対象として生成する。
このパラダイムは強力な生成モデルを活用し、従来の学習からランクへの方法とは異なる新しいパラダイムを表現する。
しかし、その急速な発展にもかかわらず、現在の生成的検索方法はまだ限られている。
それらは通常、予測された識別子をパスランクリストに変換するヒューリスティック関数に依存しており、これは生成的検索の学習目標と望ましいパスランクの目標の間のギャップを生じさせる。
また,テキスト生成の固有露出バイアス問題は生成的検索においても継続される。
これらの問題に対処するため,我々は,生成的検索と古典的学習からランクへのパラダイムを組み合わせた新しい枠組み ltrgr を提案する。
提案手法では,自動回帰モデルを最適通過ランキングに向けて直接最適化する,通過ランク損失を用いた自己回帰モデルを訓練する。
このフレームワークは、現在の生成的検索システムを強化するための追加のトレーニングステップしか必要とせず、推論段階に負担を加えない。
我々は,3つの公開データセットについて実験を行い,LTRGRが生成検索手法の最先端性能を実現し,その有効性とロバスト性を示した。
関連論文リスト
- Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - Distillation Enhanced Generative Retrieval [96.69326099136289]
生成的検索はテキスト検索において有望な新しいパラダイムであり、関連する通路の識別子文字列を検索対象として生成する。
本研究は, 蒸留による生成的検索をさらに促進するための有効な方向を特定し, DGR という名称の実行可能なフレームワークを提案する。
本研究では,4つの公開データセットに対して実験を行い,DGRが生成的検索手法の最先端性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-16T15:48:24Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Unsupervised Text Generation by Learning from Search [86.51619839836331]
TGLSは、教師なしテキスト生成のための新しいフレームワークである。
実世界の自然言語生成タスクであるパラフレーズ生成とテキストの形式化におけるTGLSの有効性を示す。
論文 参考訳(メタデータ) (2020-07-09T04:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。