論文の概要: DSI++: Updating Transformer Memory with New Documents
- arxiv url: http://arxiv.org/abs/2212.09744v1
- Date: Mon, 19 Dec 2022 18:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:23:51.765347
- Title: DSI++: Updating Transformer Memory with New Documents
- Title(参考訳): DSI++: 新しいドキュメントでトランスフォーマーメモリを更新
- Authors: Sanket Vaibhav Mehta, Jai Gupta, Yi Tay, Mostafa Dehghani, Vinh Q.
Tran, Jinfeng Rao, Marc Najork, Emma Strubell, Donald Metzler
- Abstract要約: 微分検索インデックス(DSI)は、モデルのパラメータに文書のコーパスをエンコードし、同じモデルを使用してクエリを関連するドキュメント識別子に直接マッピングする。
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
- 参考スコア(独自算出の注目度): 84.76596855609301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentiable Search Indices (DSIs) encode a corpus of documents in the
parameters of a model and use the same model to map queries directly to
relevant document identifiers. Despite the strong performance of DSI models,
deploying them in situations where the corpus changes over time is
computationally expensive because reindexing the corpus requires re-training
the model. In this work, we introduce DSI++, a continual learning challenge for
DSI to incrementally index new documents while being able to answer queries
related to both previously and newly indexed documents. Across different model
scales and document identifier representations, we show that continual indexing
of new documents leads to considerable forgetting of previously indexed
documents. We also hypothesize and verify that the model experiences forgetting
events during training, leading to unstable learning. To mitigate these issues,
we investigate two approaches. The first focuses on modifying the training
dynamics. Flatter minima implicitly alleviate forgetting, so we optimize for
flatter loss basins and show that the model stably memorizes more documents
(+12\%). Next, we introduce a generative memory to sample pseudo-queries for
documents and supplement them during continual indexing to prevent forgetting
for the retrieval task. Extensive experiments on novel continual indexing
benchmarks based on Natural Questions (NQ) and MS MARCO demonstrate that our
proposed solution mitigates forgetting by a significant margin. Concretely, it
improves the average Hits@10 by $+21.1\%$ over competitive baselines for NQ and
requires $6$ times fewer model updates compared to re-training the DSI model
for incrementally indexing five corpora in a sequence.
- Abstract(参考訳): 微分検索インデックス(DSI)は、モデルのパラメータに文書のコーパスをエンコードし、同じモデルを使用してクエリを関連するドキュメント識別子に直接マッピングする。
DSIモデルの性能は高いが、コーパスを再インデックスするにはモデルを再トレーニングする必要があるため、コーパスが時間とともに変化する状況にデプロイする。
そこで本研究では,DSI++を提案する。DSIが新たなドキュメントをインクリメンタルにインデクシングする上で,従来と新たにインデックス付けされたドキュメントの両方に関するクエリに回答することができる。
異なるモデルスケールと文書識別子の表現において、新しい文書の連続的なインデックス付けは、以前インデックスされた文書をかなり忘れてしまうことを示す。
また、モデルがトレーニング中にイベントを忘れていることを仮定し、検証することで、不安定な学習につながります。
これらの問題を緩和するため、我々は2つのアプローチを調査した。
ひとつは、トレーニングダイナミクスの変更だ。
フラッターミニマは暗黙的に忘れを和らげるため、フラットな損失盆地を最適化し、モデルが安定してより多くの文書(+12\%)を記憶することを示す。
次に,文書の疑似クエリをサンプリングし,連続インデックス化時に補完する生成メモリを導入し,検索タスクの忘れることを防止する。
NQ (Natural Questions) とMS MARCO (MS MARCO) に基づく新しい連続的索引付けベンチマークの広範囲な実験により,提案手法は大きな差で忘れを緩和することを示した。
具体的には、NQの競争ベースラインよりも平均Hits@10を$+21.1\%改善し、シーケンス内の5つのコーパスをインクリメンタルにインデックスするDSIモデルを再トレーニングするのに比べて6倍のモデル更新が必要になる。
関連論文リスト
- UpLIF: An Updatable Self-Tuning Learned Index Framework [4.077820670802213]
UpLIFは、入ってくる更新に対応するようにモデルを調整した適応的な自己チューニング学習インデックスである。
また、モデル固有の特性を決定するバランスモデル調整の概念も導入する。
論文 参考訳(メタデータ) (2024-08-07T22:30:43Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - IncDSI: Incrementally Updatable Document Retrieval [35.5697863674097]
IncDSIは、データセット全体のモデルをトレーニングすることなく、リアルタイムでドキュメントを追加する方法である。
我々は、制約付き最適化問題として文書の追加を定式化し、ネットワークパラメータの変更を最小限に抑える。
私たちのアプローチは、データセット全体のモデルの再トレーニングと競合しています。
論文 参考訳(メタデータ) (2023-07-19T07:20:30Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Bridging the Gap Between Indexing and Retrieval for Differentiable
Search Index with Query Generation [98.02743096197402]
Differentiable Search Index (DSI) は情報検索の新たなパラダイムである。
そこで我々は, DSI-QG と呼ばれる, DSI のための簡易かつ効果的な索引付けフレームワークを提案する。
DSI-QG が元の DSI モデルより有意に優れていたことを示す。
論文 参考訳(メタデータ) (2022-06-21T06:21:23Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Transformer Memory as a Differentiable Search Index [102.41278496436948]
本稿では,文字列クエリを関連するドシデントに直接マップするテキストからテキストモデルを学ぶ新しいパラダイムであるdiffariable Search Index (DSI)を紹介する。
文書とその識別子の表現方法、訓練手順のバリエーション、モデルとコーパスサイズ間の相互作用について検討する。
論文 参考訳(メタデータ) (2022-02-14T19:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。