論文の概要: CorpusBrain++: A Continual Generative Pre-Training Framework for
Knowledge-Intensive Language Tasks
- arxiv url: http://arxiv.org/abs/2402.16767v1
- Date: Mon, 26 Feb 2024 17:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:50:50.431926
- Title: CorpusBrain++: A Continual Generative Pre-Training Framework for
Knowledge-Intensive Language Tasks
- Title(参考訳): CorpusBrain++: 知識集約型言語タスクのための継続的生成事前学習フレームワーク
- Authors: Jiafeng Guo, Changjiang Zhou, Ruqing Zhang, Jiangui Chen, Maarten de
Rijke, Yixing Fan and Xueqi Cheng
- Abstract要約: 知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。
近年,コーパスブライン(CorpsBrain)と呼ばれるKILTの事前学習型生成検索モデルが提案され,新しい最先端検索性能に到達した。
- 参考スコア(独自算出の注目度): 111.13988772503511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-intensive language tasks (KILTs) typically require retrieving
relevant documents from trustworthy corpora, e.g., Wikipedia, to produce
specific answers. Very recently, a pre-trained generative retrieval model for
KILTs, named CorpusBrain, was proposed and reached new state-of-the-art
retrieval performance. However, most existing research on KILTs, including
CorpusBrain, has predominantly focused on a static document collection,
overlooking the dynamic nature of real-world scenarios, where new documents are
continuously being incorporated into the source corpus. To address this gap, it
is crucial to explore the capability of retrieval models to effectively handle
the dynamic retrieval scenario inherent in KILTs.
In this work, we first introduce the continual document learning (CDL) task
for KILTs and build a novel benchmark dataset named KILT++ based on the
original KILT dataset for evaluation. Then, we conduct a comprehensive study
over the use of pre-trained CorpusBrain on KILT++. Unlike the promising results
in the stationary scenario, CorpusBrain is prone to catastrophic forgetting in
the dynamic scenario, hence hampering the retrieval performance. To alleviate
this issue, we propose CorpusBrain++, a continual generative pre-training
framework. Empirical results demonstrate the significant effectiveness and
remarkable efficiency of CorpusBrain++ in comparison to both traditional and
generative IR methods.
- Abstract(参考訳): 知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。
近頃,前訓練された人工的キルト検索モデルであるコーパスブレインが提案され,新たな検索性能が得られた。
しかし、CorpsBrainを含む既存のKILTの研究のほとんどは、新しいドキュメントがソースコーパスに継続的に組み込まれている実世界のシナリオの動的な性質を見越して、静的なドキュメントコレクションに重点を置いている。
このギャップに対処するためには,キルトに固有の動的検索シナリオを効果的に処理する検索モデルの能力を検討することが重要である。
本研究では,KILT のための連続文書学習 (CDL) タスクを最初に導入し,KILT++ という名の新しいベンチマークデータセットを構築した。
次に, KILT++ 上での CorpusBrain の使用に関する総合的研究を行った。
定常シナリオにおける有望な結果とは異なり、CorpusBrainは動的シナリオにおいて破滅的な忘れをしがちである。
この問題を軽減するために,我々はCorpsBrain++を提案する。
実験の結果,コーパスブレイン++は従来のir法とジェネレーティブir法の両方と比較して有意な有効性と著明な効率を示した。
関連論文リスト
- Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Wikiformer: Pre-training with Structured Information of Wikipedia for
Ad-hoc Retrieval [21.262531222066208]
本稿では,ウィキペディアの構造的知識に基づいて,情報検索タスクに適した4つの事前学習目標を考案する。
既存の事前学習手法と比較して,本手法はトレーニングコーパスにおける意味的知識をよりよく捉えることができる。
生物医学・法学領域における実験結果から,本手法は垂直領域において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-12-17T09:31:47Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - WebBrain: Learning to Generate Factually Correct Articles for Queries by
Grounding on Large Web Corpus [61.209202634703104]
我々は,Web から証拠をマイニングすることで,クエリを参照した短い事実記事を生成する NLP タスクを導入する。
最終的なゴールは、ウィキペディアに見当たらない事実検索のための、流動的で情報豊かで、事実的に正しい短い記事を作ることである。
我々は、英語のウィキペディア記事とそのクロール可能なウィキペディア参照を抽出し、大規模なデータセットWebBrain-Rawを構築した。
論文 参考訳(メタデータ) (2023-04-10T02:55:48Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。