論文の概要: Dimension vs. Precision: A Comparative Analysis of Autoencoders and Quantization for Efficient Vector Retrieval on BEIR SciFact
- arxiv url: http://arxiv.org/abs/2511.13057v2
- Date: Tue, 18 Nov 2025 16:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.878336
- Title: Dimension vs. Precision: A Comparative Analysis of Autoencoders and Quantization for Efficient Vector Retrieval on BEIR SciFact
- Title(参考訳): 次元 vs. 精度: BEIR SciFact上での自己エンコーダと効率的なベクトル検索のための量子化の比較解析
- Authors: Satyanarayan Pati,
- Abstract要約: Int8量子化は最も効果的な「スイートスポット」を提供し、nDCG@10の無視可能な[1-2%]ドロップで4倍の圧縮を達成する。
オートエンコーダは優雅な劣化を示すが、同等の4倍圧縮比でより大きな性能損失を被る。
バイナリ量子化は 破滅的な性能低下のため この作業には適さないことが分かりました
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrieval models have become a standard for state-of-the-art information retrieval. However, their high-dimensional, high-precision (float32) vector embeddings create significant storage and memory challenges for real-world deployment. To address this, we conduct a rigorous empirical study on the BEIR SciFact benchmark, evaluating the trade-offs between two primary compression strategies: (1) Dimensionality Reduction via deep Autoencoders (AE), reducing original 384-dim vectors to latent spaces from 384 down to 12, and (2) Precision Reduction via Quantization (float16, int8, and binary). We systematically compare each method by measuring the "performance loss" (or gain) relative to a float32 baseline across a full suite of retrieval metrics (NDCG, MAP, MRR, Recall, Precision) at various k cutoffs. Our results show that int8 scalar quantization provides the most effective "sweet spot," achieving a 4x compression with a negligible [~1-2%] drop in nDCG@10. In contrast, Autoencoders show a graceful degradation but suffer a more significant performance loss at equivalent 4x compression ratios (AE-96). binary quantization was found to be unsuitable for this task due to catastrophic performance drops. This work provides a practical guide for deploying efficient, high-performance retrieval systems.
- Abstract(参考訳): デンス検索モデルは最先端の情報検索の標準となっている。
しかし、その高次元で高精度なベクトル埋め込み(float32)は、現実世界のデプロイメントにおいて重要なストレージとメモリの課題を生み出している。
そこで本研究では, BEIR SciFactベンチマークを用いて, 1) ディープオートエンコーダ(AE)による次元化, 384次元ベクトルの遅延空間への縮小, (2) 量子化による精密化(float16, int8, binary)の2つの主要な圧縮戦略のトレードオフを評価する。
各種kカットオフにおける全検索指標(NDCG,MAP,MRR,リコール,精度)を対象に,float32ベースラインに対する「性能損失」(またはゲイン)を測定し,各手法を系統的に比較した。
Int8スカラー量子化は,nDCG@10において,無視可能な[~1-2%]の低下で4倍の圧縮を達成し,最も効果的な「スイートスポット」を提供することを示した。
対照的に、オートエンコーダは優雅な劣化を示すが、同等の4倍圧縮比(AE-96)でより大きな性能損失を被る。
バイナリ量子化は 破滅的な性能低下のため この作業には適さないことが分かりました
本研究は,効率的な高速検索システムを構築するための実用的なガイドを提供する。
関連論文リスト
- ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization [99.96330641363396]
ARMOR: (Adaptive Representation with Matrix-factorization) は、新しい1ショットのポストトレーニングプルーニングアルゴリズムである。
ARMORは重量を直接刈る代わりに、各重量行列を2:4のスパースコアに分解する。
ARMORは、幅広いダウンストリームタスクとパープレキシティ評価において、最先端の2:4プルーニング手法よりも一貫して、はるかに優れています。
論文 参考訳(メタデータ) (2025-10-07T02:39:20Z) - CALR: Corrective Adaptive Low-Rank Decomposition for Efficient Large Language Model Layer Compression [0.0]
大規模言語モデル(LLM)は、その膨大なサイズと計算要求のために、重大なデプロイメント上の課題を提示する。
本稿では,2成分圧縮手法である補正適応低ランク分解(CALR)を導入する。
CALR はパラメータ数を 26.93% から 51.77% に削減でき、元のモデルの性能の59.45% から 90.42% に維持できることを示した。
論文 参考訳(メタデータ) (2025-08-21T13:16:02Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Optimization of embeddings storage for RAG systems using quantization and dimensionality reduction techniques [0.0]
本研究では,float8量子化により,性能劣化を最小限に抑えつつ,ストレージの4倍の低減を実現することを示す。
PCAは最も効果的な次元削減技術として出現する。
本稿では,最適構成を特定するために,性能記憶トレードオフ空間を可視化する手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T18:20:16Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - 4-bit Conformer with Native Quantization Aware Training for Speech
Recognition [13.997832593421577]
そこで本研究では,ネイティブ整数演算を応用し,学習と推論の両方を効果的に最適化する,ネイティブ量子化を考慮した4ビットASRモデルを提案する。
提案した量子化手法を評価するために,最先端のコンフォーマーベースASRモデルに関する2つの実験を行った。
大規模データセットでトレーニングされた実用的なASRシステムにおいて、4ビット量子化が実現可能であることを初めて調査し明らかにした。
論文 参考訳(メタデータ) (2022-03-29T23:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。