論文の概要: ESPN: Memory-Efficient Multi-Vector Information Retrieval
- arxiv url: http://arxiv.org/abs/2312.05417v1
- Date: Sat, 9 Dec 2023 00:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:57:51.698998
- Title: ESPN: Memory-Efficient Multi-Vector Information Retrieval
- Title(参考訳): ESPN: メモリ効率の良いマルチベクトル情報検索
- Authors: Susav Shrestha, Narasimha Reddy, Zongwang Li
- Abstract要約: マルチベクトルモデルは、検索インデックスのメモリとストレージの要求を桁違いに増幅する。
ストレージパイプラインネットワーク(ESPN)からEmbeddingを導入し、再ランクの埋め込みテーブル全体をオフロードして、メモリ要求を5~16倍削減します。
我々は、ヒット率90%を超えるソフトウェアプレフィッシャーを設計し、SSDベースの検索を6.4倍に改善し、大規模なクエリバッチサイズであっても、ほぼメモリレベルのクエリレイテンシを維持できることを実証した。
- 参考スコア(独自算出の注目度): 0.36832029288386137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models have demonstrated remarkable
effectiveness in information retrieval (IR) tasks. While many neural IR systems
encode queries and documents into single-vector representations, multi-vector
models elevate the retrieval quality by producing multi-vector representations
and facilitating similarity searches at the granularity of individual tokens.
However, these models significantly amplify memory and storage requirements for
retrieval indices by an order of magnitude. This escalation in index size
renders the scalability of multi-vector IR models progressively challenging due
to their substantial memory demands. We introduce Embedding from Storage
Pipelined Network (ESPN) where we offload the entire re-ranking embedding
tables to SSDs and reduce the memory requirements by 5-16x. We design a
software prefetcher with hit rates exceeding 90%, improving SSD based retrieval
up to 6.4x, and demonstrate that we can maintain near memory levels of query
latency even for large query batch sizes.
- Abstract(参考訳): 大規模言語モデルにおける最近の進歩は、情報検索(IR)タスクにおいて顕著な効果を示している。
多くのニューラルIRシステムはクエリやドキュメントを単一ベクトル表現にエンコードするが、マルチベクトルモデルは、複数のベクトル表現を生成し、個々のトークンの粒度を類似性検索しやすくすることで、検索品質を高める。
しかし、これらのモデルは検索インデックスを桁違いに増幅するメモリとストレージの要求を大幅に増幅する。
このインデックスサイズのエスカレーションにより、大量のメモリ要求により、マルチベクトルirモデルのスケーラビリティが徐々に困難になる。
ストレージパイプラインネットワーク(ESPN)からEmbeddingを導入し、再ランクの埋め込みテーブル全体をSSDにオフロードし、メモリ要求を5~16倍削減します。
我々は,ヒット率が90%を超えるソフトウェアプリフェッチャーを設計し,ssdベースの検索を6.4倍まで改善し,大規模なクエリバッチサイズであっても,ほぼメモリレベルのクエリレイテンシを維持できることを実証した。
関連論文リスト
- Sequence can Secretly Tell You What to Discard [57.109354287786154]
メモリフットプリントを大幅に削減するKVキャッシュを最適化するための新しい手法を提案する。
我々は,KVキャッシュの消去ポリシーであるCORMを提案し,モデルに微調整を加えることなく,推論のためのキーと値のペアを動的に保持する。
CORMは、LongBenchの6つのタスクで顕著なパフォーマンス劣化を伴わずに、KVキャッシュの推論メモリ使用量を最大70%削減する。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - AiSAQ: All-in-Storage ANNS with Product Quantization for DRAM-free Information Retrieval [1.099532646524593]
DiskANNは、RAMとストレージの両方を使用して、大規模データセットのリコール速度バランスを良好に実現している。
製品量子化(PQ)による圧縮ベクターのロードによるメモリ使用量の削減を主張する一方で、そのメモリ使用量はデータセットの規模に比例して増加する。
本稿では、圧縮されたベクトルをストレージにオフロードするAiSAQ(All-in-Storage ANNS with Product Quantization)を提案する。
論文 参考訳(メタデータ) (2024-04-09T04:20:27Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - MEMORY-VQ: Compression for Tractable Internet-Scale Memory [45.7528997281282]
LUMENのようなメモリベースのメソッドは、検索されたパスのトークン表現を事前に計算し、推論を大幅に高速化する。
本稿では,メモリ拡張モデルのストレージ要求を,性能を犠牲にすることなく低減する新しい方法であるMEMORY-VQを提案する。
論文 参考訳(メタデータ) (2023-08-28T21:11:18Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - Binary Embedding-based Retrieval at Tencent [30.44247353560061]
大規模埋め込み型検索 (EBR) は, 検索関連産業アプリケーションの基礎となっている。
本稿では,2進二進化アルゴリズムを組み込んだ2進埋め込み型検索エンジンを提案する。
私たちは、導入したBEBRをSogou、Tencent Video、QQ Worldなど、Tencent製品にうまく採用しました。
論文 参考訳(メタデータ) (2023-02-17T06:10:02Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。