論文の概要: Residual Quantization with Implicit Neural Codebooks
- arxiv url: http://arxiv.org/abs/2401.14732v1
- Date: Fri, 26 Jan 2024 09:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 15:25:05.031936
- Title: Residual Quantization with Implicit Neural Codebooks
- Title(参考訳): 暗黙的ニューラルコードブックによる残留量子化
- Authors: Iris Huijben, Matthijs Douze, Matthew Muckley, Ruud van Sloun, Jakob
Verbeek
- Abstract要約: 本稿では,ニューラルネットワークを用いてベクトル毎の特別なコードブックを予測するニューラルネットワークRQ変種であるQINCoを提案する。
実験によると、QINCoはいくつかのデータセットとコードサイズに対して、最先端のメソッドよりも大きなマージンでパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 23.598010051403225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector quantization is a fundamental operation for data compression and
vector search. To obtain high accuracy, multi-codebook methods increase the
rate by representing each vector using codewords across multiple codebooks.
Residual quantization (RQ) is one such method, which increases accuracy by
iteratively quantizing the error of the previous step. The error distribution
is dependent on previously selected codewords. This dependency is, however, not
accounted for in conventional RQ as it uses a generic codebook per quantization
step. In this paper, we propose QINCo, a neural RQ variant which predicts
specialized codebooks per vector using a neural network that is conditioned on
the approximation of the vector from previous steps. Experiments show that
QINCo outperforms state-of-the-art methods by a large margin on several
datasets and code sizes. For example, QINCo achieves better nearest-neighbor
search accuracy using 12 bytes codes than other methods using 16 bytes on the
BigANN and Deep1B dataset.
- Abstract(参考訳): ベクトル量子化はデータ圧縮とベクトル探索の基本的な操作である。
精度を高めるために、複数のコードブックにまたがるコードワードを用いて各ベクトルを表現することで、マルチコードブック手法によりレートを向上する。
残留量子化(Residual Quantization, RQ)は、前ステップの誤差を反復的に定量化することで精度を高める方法である。
エラー分布は、以前選択されたコードワードに依存する。
しかし、この依存関係は量子化ステップごとに汎用コードブックを使用するため、従来のRQでは考慮されていない。
本稿では,前ステップからベクトルを近似したニューラルネットワークを用いて,ベクトル毎の特殊コードブックを予測するニューラルネットワークであるQINCoを提案する。
実験によると、QINCoはいくつかのデータセットとコードサイズに対して、最先端のメソッドよりも大きなマージンでパフォーマンスを示している。
例えば、QINCoは、BigANNとDeep1Bデータセットの16バイトを使用して、12バイトのコードを使用して、近隣の検索精度を改善する。
関連論文リスト
- VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers [7.369445527610879]
Diffusion Transformers Models (DiTs) は、ネットワークアーキテクチャを従来のUNetsからTransformersに移行し、画像生成において例外的な能力を示した。
ベクトル量子化(VQ)は、モデルの重みをコードブックと代入に分解し、極端な重み量子化とメモリ使用量の大幅な削減を可能にする。
実験により、VQ4DiTはモデルサイズと性能トレードオフの新たな最先端を確立でき、重みを2ビット精度に定量化でき、画像生成品質は許容できる。
論文 参考訳(メタデータ) (2024-08-30T09:15:54Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - QTIP: Quantization with Trellises and Incoherence Processing [29.917017118524246]
後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを削減する。
最近の最先端のPTQアプローチでは、ベクトル量子化(VQ)を使用して複数の重みを同時に定量化している。
超高次元量子化を実現するためにトレリス符号化量子化(TCQ)を用いるQTIPを導入する。
論文 参考訳(メタデータ) (2024-06-17T06:03:13Z) - GPTVQ: The Blessing of Dimensionality for LLM Quantization [16.585681547799762]
ニューラルネットワーク量子化のサイズと精度のトレードオフは、量子化次元を増大させることで大幅に改善できることを示す。
GPTVQ法は,大規模言語モデル(LLM)によく適応するベクトル量子化(VQ)の高速化手法である。
本手法は,各層ごとの出力再構成MSEのヘシアンからの情報を用いて,残りの未定量重みを更新した1列以上の列の量子化をインターリーブする。
論文 参考訳(メタデータ) (2024-02-23T13:39:16Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。