論文の概要: Continual Learning for Generative Retrieval over Dynamic Corpora
- arxiv url: http://arxiv.org/abs/2308.14968v2
- Date: Sat, 27 Sep 2025 10:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.628293
- Title: Continual Learning for Generative Retrieval over Dynamic Corpora
- Title(参考訳): 動的コーパスを用いた生成検索のための連続学習
- Authors: Jiangui Chen, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Wei Chen, Yixing Fan, Xueqi Cheng,
- Abstract要約: 生成検索(GR)はパラメトリックモデルに基づいて関連文書の識別子(ドシデクス)を直接予測する。
クエリに応答する能力を保ちながら、新しいドキュメントをインクリメンタルにインデックスする能力は、GRモデルを適用する上で不可欠である。
我々は,CLEVERモデルのための新しい連続学習モデルを提案し,GRのための連続学習に2つの大きな貢献をした。
- 参考スコア(独自算出の注目度): 115.79012933205756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative retrieval (GR) directly predicts the identifiers of relevant documents (i.e., docids) based on a parametric model. It has achieved solid performance on many ad-hoc retrieval tasks. So far, these tasks have assumed a static document collection. In many practical scenarios, however, document collections are dynamic, where new documents are continuously added to the corpus. The ability to incrementally index new documents while preserving the ability to answer queries with both previously and newly indexed relevant documents is vital to applying GR models. In this paper, we address this practical continual learning problem for GR. We put forward a novel Continual-LEarner for generatiVE Retrieval (CLEVER) model and make two major contributions to continual learning for GR: (i) To encode new documents into docids with low computational cost, we present Incremental Product Quantization, which updates a partial quantization codebook according to two adaptive thresholds; and (ii) To memorize new documents for querying without forgetting previous knowledge, we propose a memory-augmented learning mechanism, to form meaningful connections between old and new documents. Empirical results demonstrate the effectiveness and efficiency of the proposed model.
- Abstract(参考訳): 生成検索(GR)はパラメトリックモデルに基づいて関連文書の識別子を直接予測する。
多くのアドホック検索タスクにおいて、しっかりとしたパフォーマンスを実現している。
これまでのところ、これらのタスクは静的なドキュメントコレクションを前提としています。
しかし、多くの実践的なシナリオでは、ドキュメントコレクションは動的であり、新しいドキュメントがコーパスに継続的に追加される。
GRモデルを適用する上では、新しいドキュメントをインクリメンタルにインデクシングすると同時に、以前と新しくインデックスされた関連ドキュメントの両方でクエリに応答する機能を保持する能力が不可欠である。
本稿では,GRにおけるこの実践的連続学習問題に対処する。
我々は、CLEVERモデルのための新しい連続学習モデルを提案し、GRのための連続学習に2つの大きな貢献をした。
i)新しい文書を計算コストの低いドーシックにエンコードするために,2つの適応しきい値に従って部分量子化コードブックを更新するインクリメンタル製品量子化(Incremental Product Quantization)を提案する。
(II) 従来の知識を忘れずに新しいドキュメントを記憶するために, 古文書と新文書の有意義な関連性を形成するためのメモリ拡張学習機構を提案する。
実験により,提案モデルの有効性と有効性を示す。
関連論文リスト
- Query Drift Compensation: Enabling Compatibility in Continual Learning of Retrieval Embedding Models [12.586519025284328]
インデクシングを必要とせずに,すでにインデックス付け済みのコーパスを効果的に利用できるかを検討した。
安定性を維持するために,クエリとドキュメントの埋め込みの両方に埋込み蒸留を用いる。
本稿では,検索中に新しいクエリドリフト補償手法を提案し,新しいモデルクエリ埋め込みを従来の埋め込み空間に提案する。
論文 参考訳(メタデータ) (2025-05-27T14:52:52Z) - DOGR: Leveraging Document-Oriented Contrastive Learning in Generative Retrieval [10.770281363775148]
生成検索における文書指向コントラスト学習(DOGR)の活用という,新規で汎用的な生成検索フレームワークを提案する。
クエリとドキュメントの関係を,直接的なインタラクションを通じて包括的にキャプチャする,2段階の学習戦略を採用している。
意味表現の学習を促進するために、否定的サンプリング手法とそれに対応するコントラスト学習目的を実装した。
論文 参考訳(メタデータ) (2025-02-11T03:25:42Z) - Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。