論文の概要: 4bit-Quantization in Vector-Embedding for RAG
- arxiv url: http://arxiv.org/abs/2501.10534v1
- Date: Fri, 17 Jan 2025 20:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:56.563158
- Title: 4bit-Quantization in Vector-Embedding for RAG
- Title(参考訳): RAGのためのベクトル埋め込みにおける4ビット量子化
- Authors: Taehee Jeong,
- Abstract要約: Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)のいくつかの制限に対処する大きな可能性を示す,有望なテクニックである。
RAGは、高次元空間に埋め込まれたベクトルとして格納される関連ドキュメントのデータベースを活用することで、これらの問題を緩和することを目的としている。
高次元埋め込みを使用する場合の課題の1つは、記憶にかなりの量のメモリを必要とすることである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Retrieval-augmented generation (RAG) is a promising technique that has shown great potential in addressing some of the limitations of large language models (LLMs). LLMs have two major limitations: they can contain outdated information due to their training data, and they can generate factually inaccurate responses, a phenomenon known as hallucinations. RAG aims to mitigate these issues by leveraging a database of relevant documents, which are stored as embedding vectors in a high-dimensional space. However, one of the challenges of using high-dimensional embeddings is that they require a significant amount of memory to store. This can be a major issue, especially when dealing with large databases of documents. To alleviate this problem, we propose the use of 4-bit quantization to store the embedding vectors. This involves reducing the precision of the vectors from 32-bit floating-point numbers to 4-bit integers, which can significantly reduce the memory requirements. Our approach has several benefits. Firstly, it significantly reduces the memory storage requirements of the high-dimensional vector database, making it more feasible to deploy RAG systems in resource-constrained environments. Secondly, it speeds up the searching process, as the reduced precision of the vectors allows for faster computation. Our code is available at https://github.com/taeheej/4bit-Quantization-in-Vector-Embedding-for-RAG
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)のいくつかの制限に対処する大きな可能性を示す,有望なテクニックである。
LLMには2つの大きな制限がある: トレーニングデータによって時代遅れの情報を含むことができ、実際に不正確な反応を発生させることができる。
RAGは、高次元空間に埋め込まれたベクトルとして格納される関連ドキュメントのデータベースを活用することで、これらの問題を緩和することを目的としている。
しかし、高次元埋め込みを使用する場合の課題の1つは、記憶にかなりの量のメモリを必要とすることである。
これは大きなドキュメントデータベースを扱う場合、特に大きな問題となる可能性がある。
この問題を軽減するため,埋め込みベクトルを格納するための4ビット量子化法を提案する。
これはベクトルの精度を32ビット浮動小数点数から4ビット整数に下げることによって、メモリ要求を大幅に削減する。
私たちのアプローチにはいくつかの利点があります。
まず、高次元ベクトルデータベースのメモリストレージ要件を大幅に削減し、リソース制約のある環境でRAGシステムをデプロイしやすくする。
第二に、ベクトルの精度の低下が高速な計算を可能にするため、探索処理を高速化する。
私たちのコードはhttps://github.com/taeheej/4bit-Quantization-in-Vector-Embedding-for-RAGで利用可能です。
関連論文リスト
- Lossless Compression of Vector IDs for Approximate Nearest Neighbor Search [11.938555573590964]
インデックスのサイズを減らすために、ロスシー圧縮が広く適用されている。
逆ファイルとグラフベースのインデックスでは、ベクトルIDやリンクなどの補助データはほとんどのストレージコストを表すことができる。
いくつかのデータセットに対して、これらの手法は量子化されたベクトルコードも無害に圧縮できることを示す。
論文 参考訳(メタデータ) (2025-01-16T20:45:11Z) - BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - ESPN: Memory-Efficient Multi-Vector Information Retrieval [0.36832029288386137]
マルチベクトルモデルは、検索インデックスのメモリとストレージの要求を桁違いに増幅する。
ストレージパイプラインネットワーク(ESPN)からEmbeddingを導入し、再ランクの埋め込みテーブル全体をオフロードして、メモリ要求を5~16倍削減します。
我々は、ヒット率90%を超えるソフトウェアプレフィッシャーを設計し、SSDベースの検索を6.4倍に改善し、大規模なクエリバッチサイズであっても、ほぼメモリレベルのクエリレイテンシを維持できることを実証した。
論文 参考訳(メタデータ) (2023-12-09T00:19:42Z) - BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models [77.0501668780182]
Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
論文 参考訳(メタデータ) (2023-10-02T16:48:47Z) - Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-09-04T10:27:17Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - Efficient Passage Retrieval with Hashing for Open-domain Question
Answering [37.41707616728358]
本稿では,メモリ効率の高いニューラル検索モデルであるBinary Passage Retriever(BPR)を紹介する。
BPRは、最先端のDense Passage Retrieverに学習からハッシュ技術を統合する。
DPRと比較して、BPRはメモリコストを65GBから2GBに大幅に削減し、精度を損なう。
論文 参考訳(メタデータ) (2021-06-02T01:34:42Z) - A Memory Efficient Baseline for Open Domain Question Answering [22.16527305568442]
高密度レトリバーリーダーシステムのメモリフットプリントの低減方法を検討する。
本稿では,次元削減,ベクトル量子化,通過フィルタリングの3つの手法について考察する。
我々は,TriviaQAとNaturalQuestionsという2つの質問応答ベンチマークに対するアプローチを評価し,6Gb未満のメモリで競合するシステムを実現できることを示した。
論文 参考訳(メタデータ) (2020-12-30T13:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。