論文の概要: CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks
- arxiv url: http://arxiv.org/abs/2208.07652v1
- Date: Tue, 16 Aug 2022 10:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:43:42.414236
- Title: CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks
- Title(参考訳): CorpusBrain: 知識集約型言語タスクのための生成検索モデルの事前トレーニング
- Authors: Jiangui Chen, Ruqing Zhang, Jiafeng Guo, Yiqun Liu, Yixing Fan, Xueqi
Cheng
- Abstract要約: 単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
- 参考スコア(独自算出の注目度): 62.22920673080208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-intensive language tasks (KILT) usually require a large body of
information to provide correct answers. A popular paradigm to solve this
problem is to combine a search system with a machine reader, where the former
retrieves supporting evidences and the latter examines them to produce answers.
Recently, the reader component has witnessed significant advances with the help
of large-scale pre-trained generative models. Meanwhile most existing solutions
in the search component rely on the traditional ``index-retrieve-then-rank''
pipeline, which suffers from large memory footprint and difficulty in
end-to-end optimization. Inspired by recent efforts in constructing model-based
IR models, we propose to replace the traditional multi-step search pipeline
with a novel single-step generative model, which can dramatically simplify the
search process and be optimized in an end-to-end manner. We show that a strong
generative retrieval model can be learned with a set of adequately designed
pre-training tasks, and be adopted to improve a variety of downstream KILT
tasks with further fine-tuning. We name the pre-trained generative retrieval
model as CorpusBrain as all information about the corpus is encoded in its
parameters without the need of constructing additional index. Empirical results
show that CorpusBrain can significantly outperform strong baselines for the
retrieval task on the KILT benchmark and establish new state-of-the-art
downstream performances. We also show that CorpusBrain works well under zero-
and low-resource settings.
- Abstract(参考訳): 知識集約型言語タスク(KILT)は通常、正しい回答を提供するために大量の情報を必要とする。
この問題を解決するための一般的なパラダイムは、探索システムと機械読取機を組み合わせることであり、前者は証拠を回収し、後者はそれらを検証して回答を生成する。
近年、読者は大規模な事前学習型生成モデルの助けを借りて大きな進歩をみせた。
一方、検索コンポーネントの既存のソリューションのほとんどは従来の‘index-retrieve-then-rank’パイプラインに依存している。
近年のモデルベースirモデルの構築に触発されて,従来の多段階探索パイプラインを,探索プロセスを劇的に単純化し,エンドツーエンドで最適化可能な,新たな単一ステップ生成モデルに置き換える提案を行う。
そこで本研究では,事前学習タスクを適切に設計することで,強力な生成的検索モデルを学習でき,さらに微調整を施して下流キルトタスクを改良できることを示す。
我々は,事前学習された生成的検索モデルをコーパスブレインと命名する。コーパスに関する情報は,追加のインデックスを構築することなく,そのパラメータにエンコードされる。
実験の結果,CorpsBrainはKILTベンチマークの検索タスクにおいて,強いベースラインを著しく上回り,新たな最先端のダウンストリーム性能を確立することができることがわかった。
また、CorpsBrainはゼロおよびローリソース設定でうまく動作することも示しています。
関連論文リスト
- Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - Reinforcement Learning with Generative Models for Compact Support Sets [10.041289551532804]
基礎モデルの制御手段として強化学習を利用する枠組みを提案する。
我々のフレームワークは優れた結果をもたらし、追加のラベル付けやデータコストを使わずにかなりのマージンで分類精度を向上した。
論文 参考訳(メタデータ) (2024-04-25T02:48:16Z) - CorpusBrain++: A Continual Generative Pre-Training Framework for
Knowledge-Intensive Language Tasks [111.13988772503511]
知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。
近年,コーパスブライン(CorpsBrain)と呼ばれるKILTの事前学習型生成検索モデルが提案され,新しい最先端検索性能に到達した。
論文 参考訳(メタデータ) (2024-02-26T17:35:44Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。