論文の概要: ESPN: Memory-Efficient Multi-Vector Information Retrieval
- arxiv url: http://arxiv.org/abs/2312.05417v1
- Date: Sat, 9 Dec 2023 00:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:57:51.698998
- Title: ESPN: Memory-Efficient Multi-Vector Information Retrieval
- Title(参考訳): ESPN: メモリ効率の良いマルチベクトル情報検索
- Authors: Susav Shrestha, Narasimha Reddy, Zongwang Li
- Abstract要約: マルチベクトルモデルは、検索インデックスのメモリとストレージの要求を桁違いに増幅する。
ストレージパイプラインネットワーク(ESPN)からEmbeddingを導入し、再ランクの埋め込みテーブル全体をオフロードして、メモリ要求を5~16倍削減します。
我々は、ヒット率90%を超えるソフトウェアプレフィッシャーを設計し、SSDベースの検索を6.4倍に改善し、大規模なクエリバッチサイズであっても、ほぼメモリレベルのクエリレイテンシを維持できることを実証した。
- 参考スコア(独自算出の注目度): 0.36832029288386137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models have demonstrated remarkable
effectiveness in information retrieval (IR) tasks. While many neural IR systems
encode queries and documents into single-vector representations, multi-vector
models elevate the retrieval quality by producing multi-vector representations
and facilitating similarity searches at the granularity of individual tokens.
However, these models significantly amplify memory and storage requirements for
retrieval indices by an order of magnitude. This escalation in index size
renders the scalability of multi-vector IR models progressively challenging due
to their substantial memory demands. We introduce Embedding from Storage
Pipelined Network (ESPN) where we offload the entire re-ranking embedding
tables to SSDs and reduce the memory requirements by 5-16x. We design a
software prefetcher with hit rates exceeding 90%, improving SSD based retrieval
up to 6.4x, and demonstrate that we can maintain near memory levels of query
latency even for large query batch sizes.
- Abstract(参考訳): 大規模言語モデルにおける最近の進歩は、情報検索(IR)タスクにおいて顕著な効果を示している。
多くのニューラルIRシステムはクエリやドキュメントを単一ベクトル表現にエンコードするが、マルチベクトルモデルは、複数のベクトル表現を生成し、個々のトークンの粒度を類似性検索しやすくすることで、検索品質を高める。
しかし、これらのモデルは検索インデックスを桁違いに増幅するメモリとストレージの要求を大幅に増幅する。
このインデックスサイズのエスカレーションにより、大量のメモリ要求により、マルチベクトルirモデルのスケーラビリティが徐々に困難になる。
ストレージパイプラインネットワーク(ESPN)からEmbeddingを導入し、再ランクの埋め込みテーブル全体をSSDにオフロードし、メモリ要求を5~16倍削減します。
我々は,ヒット率が90%を超えるソフトウェアプリフェッチャーを設計し,ssdベースの検索を6.4倍まで改善し,大規模なクエリバッチサイズであっても,ほぼメモリレベルのクエリレイテンシを維持できることを実証した。
関連論文リスト
- RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。
評価の結果,RetrievalAttentionは高いモデル精度を維持しながら1-3%のデータにのみアクセスする必要があることがわかった。
論文 参考訳(メタデータ) (2024-09-16T17:59:52Z) - Characterizing the Dilemma of Performance and Index Size in Billion-Scale Vector Search and Breaking It with Second-Tier Memory [14.432536669959218]
大規模データセットのベクター検索は、Web検索やRAGのような現代的なオンラインサービスにとって極めて重要である。
既存のSSDベースのグラフとクラスタインデックスのパフォーマンスとインデックスサイズのトレードオフを特徴付ける。
ベクターインデックスは、様々な第2階層メモリデバイスにおいて、桁違いに小さなインデックス増幅で最適な性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-06T08:38:14Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - AiSAQ: All-in-Storage ANNS with Product Quantization for DRAM-free Information Retrieval [1.099532646524593]
DiskANNは、RAMとストレージの両方を使用して、大規模データセットのリコール速度バランスを良好に実現している。
製品量子化(PQ)による圧縮ベクターのロードによるメモリ使用量の削減を主張する一方で、そのメモリ使用量はデータセットの規模に比例して増加する。
本稿では、圧縮されたベクトルをストレージにオフロードするAiSAQ(All-in-Storage ANNS with Product Quantization)を提案する。
論文 参考訳(メタデータ) (2024-04-09T04:20:27Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - MEMORY-VQ: Compression for Tractable Internet-Scale Memory [45.7528997281282]
LUMENのようなメモリベースのメソッドは、検索されたパスのトークン表現を事前に計算し、推論を大幅に高速化する。
本稿では,メモリ拡張モデルのストレージ要求を,性能を犠牲にすることなく低減する新しい方法であるMEMORY-VQを提案する。
論文 参考訳(メタデータ) (2023-08-28T21:11:18Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。