論文の概要: MEMORY-VQ: Compression for Tractable Internet-Scale Memory
- arxiv url: http://arxiv.org/abs/2308.14903v1
- Date: Mon, 28 Aug 2023 21:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 16:38:28.303248
- Title: MEMORY-VQ: Compression for Tractable Internet-Scale Memory
- Title(参考訳): MEMORY-VQ: トラクタブルインターネットスケールメモリの圧縮
- Authors: Yury Zemlyanskiy, Michiel de Jong, Luke Vilnis, Santiago Onta\~n\'on,
William W. Cohen, Sumit Sanghai, Joshua Ainslie
- Abstract要約: LUMENのようなメモリベースのメソッドは、検索されたパスのトークン表現を事前に計算し、推論を大幅に高速化する。
本稿では,メモリ拡張モデルのストレージ要求を,性能を犠牲にすることなく低減する新しい方法であるMEMORY-VQを提案する。
- 参考スコア(独自算出の注目度): 45.7528997281282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval augmentation is a powerful but expensive method to make language
models more knowledgeable about the world. Memory-based methods like LUMEN
pre-compute token representations for retrieved passages to drastically speed
up inference. However, memory also leads to much greater storage requirements
from storing pre-computed representations.
We propose MEMORY-VQ, a new method to reduce storage requirements of
memory-augmented models without sacrificing performance. Our method uses a
vector quantization variational autoencoder (VQ-VAE) to compress token
representations. We apply MEMORY-VQ to the LUMEN model to obtain LUMEN-VQ, a
memory model that achieves a 16x compression rate with comparable performance
on the KILT benchmark. LUMEN-VQ enables practical retrieval augmentation even
for extremely large retrieval corpora.
- Abstract(参考訳): Retrieval augmentationは、言語モデルを世界についてより理解しやすいものにするための、強力だが高価な方法である。
lumenのようなメモリベースのメソッドは、検索されたパスに対するトークン表現をプリコンピュートし、推論を劇的に高速化する。
しかし、メモリはプリコンパイルされた表現を格納することによるストレージの要求も大きくなります。
本稿では,メモリ拡張モデルのストレージ要求を減らし,性能を犠牲にすることなく,MEMORY-VQを提案する。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を用いてトークン表現を圧縮する。
LUMENモデルにMEMORY-VQを適用し、KILTベンチマークで同等の性能の16倍圧縮率のメモリモデルであるLUMEN-VQを得る。
LUMEN-VQは、非常に大規模な検索コーパスであっても、実用的な検索拡張を可能にする。
関連論文リスト
- CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - ESPN: Memory-Efficient Multi-Vector Information Retrieval [0.36832029288386137]
マルチベクトルモデルは、検索インデックスのメモリとストレージの要求を桁違いに増幅する。
ストレージパイプラインネットワーク(ESPN)からEmbeddingを導入し、再ランクの埋め込みテーブル全体をオフロードして、メモリ要求を5~16倍削減します。
我々は、ヒット率90%を超えるソフトウェアプレフィッシャーを設計し、SSDベースの検索を6.4倍に改善し、大規模なクエリバッチサイズであっても、ほぼメモリレベルのクエリレイテンシを維持できることを実証した。
論文 参考訳(メタデータ) (2023-12-09T00:19:42Z) - GLIMMER: generalized late-interaction memory reranker [29.434777627686692]
メモリ拡張は、外部情報を言語モデルに組み込むための強力なアプローチである。
LUMENはメモリを部分的にプリコンプリートし、より小さなライブエンコーダでメモリ表現を更新する。
GLIMMERは,1) メモリ上に浅い再ランカを適用して,高速で検索品質を劇的に向上させることにより,強力なメモリ表現への自由アクセスを活用できる。
論文 参考訳(メタデータ) (2023-06-17T01:54:25Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。