論文の概要: Residual Quantization with Implicit Neural Codebooks
- arxiv url: http://arxiv.org/abs/2401.14732v1
- Date: Fri, 26 Jan 2024 09:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 15:25:05.031936
- Title: Residual Quantization with Implicit Neural Codebooks
- Title(参考訳): 暗黙的ニューラルコードブックによる残留量子化
- Authors: Iris Huijben, Matthijs Douze, Matthew Muckley, Ruud van Sloun, Jakob
Verbeek
- Abstract要約: 本稿では,ニューラルネットワークを用いてベクトル毎の特別なコードブックを予測するニューラルネットワークRQ変種であるQINCoを提案する。
実験によると、QINCoはいくつかのデータセットとコードサイズに対して、最先端のメソッドよりも大きなマージンでパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 23.598010051403225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector quantization is a fundamental operation for data compression and
vector search. To obtain high accuracy, multi-codebook methods increase the
rate by representing each vector using codewords across multiple codebooks.
Residual quantization (RQ) is one such method, which increases accuracy by
iteratively quantizing the error of the previous step. The error distribution
is dependent on previously selected codewords. This dependency is, however, not
accounted for in conventional RQ as it uses a generic codebook per quantization
step. In this paper, we propose QINCo, a neural RQ variant which predicts
specialized codebooks per vector using a neural network that is conditioned on
the approximation of the vector from previous steps. Experiments show that
QINCo outperforms state-of-the-art methods by a large margin on several
datasets and code sizes. For example, QINCo achieves better nearest-neighbor
search accuracy using 12 bytes codes than other methods using 16 bytes on the
BigANN and Deep1B dataset.
- Abstract(参考訳): ベクトル量子化はデータ圧縮とベクトル探索の基本的な操作である。
精度を高めるために、複数のコードブックにまたがるコードワードを用いて各ベクトルを表現することで、マルチコードブック手法によりレートを向上する。
残留量子化(Residual Quantization, RQ)は、前ステップの誤差を反復的に定量化することで精度を高める方法である。
エラー分布は、以前選択されたコードワードに依存する。
しかし、この依存関係は量子化ステップごとに汎用コードブックを使用するため、従来のRQでは考慮されていない。
本稿では,前ステップからベクトルを近似したニューラルネットワークを用いて,ベクトル毎の特殊コードブックを予測するニューラルネットワークであるQINCoを提案する。
実験によると、QINCoはいくつかのデータセットとコードサイズに対して、最先端のメソッドよりも大きなマージンでパフォーマンスを示している。
例えば、QINCoは、BigANNとDeep1Bデータセットの16バイトを使用して、12バイトのコードを使用して、近隣の検索精度を改善する。
関連論文リスト
- GPTVQ: The Blessing of Dimensionality for LLM Quantization [16.585681547799762]
ニューラルネットワーク量子化のサイズと精度のトレードオフは、量子化次元を増大させることで大幅に改善できることを示す。
GPTVQ法は,大規模言語モデル(LLM)によく適応するベクトル量子化(VQ)の高速化手法である。
本手法は,各層ごとの出力再構成MSEのヘシアンからの情報を用いて,残りの未定量重みを更新した1列以上の列の量子化をインターリーブする。
論文 参考訳(メタデータ) (2024-02-23T13:39:16Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Network Memory Footprint Compression Through Jointly Learnable Codebooks
and Mappings [23.1120983784623]
量子化は、高精度テンソルを低精度でメモリ効率の良いフォーマットにマッピングするため、好ましい解である。
メモリフットプリントの削減に関して、最も効果的なバリエーションはコードブックに基づいている。
本稿では,近年の勾配に基づくポストトレーニング量子化手法と類似性を有するコードブックとウェイトマッピングの合同学習を提案する。
論文 参考訳(メタデータ) (2023-09-29T16:04:55Z) - Learning from Hypervectors: A Survey on Hypervector Encoding [9.46717806608802]
超次元コンピューティング(Hyperdimensional Computing、HDC)は、脳の構造を模倣し、強力で効率的な処理と学習モデルを提供する新しいコンピューティングパラダイムである。
HDCでは、データは1Kから10Kの長さの超ベクトルと呼ばれる長いベクトルで符号化される。
論文 参考訳(メタデータ) (2023-08-01T17:42:35Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Factorizers for Distributed Sparse Block Codes [62.38616784953048]
分散ブロック符号(SBC)は、固定ベクトルを用いてシンボルデータ構造を符号化し、操作するためのコンパクトな表現を示す。
主要な課題の1つは、可能なすべての組み合わせを探索することなく、そのようなデータ構造を構成要素に切り離し、あるいは分解することである。
GSBCと呼ばれるより柔軟で一般化されたSBCを分解する高速かつ高精度な手法を提案する。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。