論文の概要: Efficient VQ-QAT and Mixed Vector/Linear quantized Neural Networks
- arxiv url: http://arxiv.org/abs/2604.23172v1
- Date: Sat, 25 Apr 2026 06:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.191185
- Title: Efficient VQ-QAT and Mixed Vector/Linear quantized Neural Networks
- Title(参考訳): VQ-QATと混合ベクトル/線形量子化ニューラルネットワーク
- Authors: Terry Gou, Puneet Gupta,
- Abstract要約: 本研究では,ベクトル量子化(VQ)に基づくモデル重み圧縮のための3つの手法を開発した。
コードブックの崩壊を軽減し、エンドツーエンドのトレーニングを可能にするために、コサイン類似性に基づく課題を採用した。
また、層単位での量子化構成を適応的に選択するために、微分可能なニューラルネットワークサーチ(NAS)を用いて検討した。
- 参考スコア(独自算出の注目度): 1.8916657412668536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we developed and tested 3 techniques for vector quantization (VQ) based model weight compression. To mitigate codebook collapse and enable end-to-end training, we adopted cosine similarity-based assignment. Building on ideas from attention-based formulations in Differentiable K-Means (DKM), we further improved this approach by using cosine similarity for assignment combined with top-1 sampling and a straight-through estimator, thereby eliminating the need for weighted-average reconstruction. Finally, we investigated the use of differentiable neural architecture search (NAS) to adaptively select layer-wise quantization configurations, further optimizing the compression process. Although our method does not consistently outperform existing approaches across all quantization levels, it provides useful insights into the design trade-offs and behaviors of VQ-based model compression methods.
- Abstract(参考訳): 本研究では,ベクトル量子化(VQ)に基づくモデル重み圧縮のための3つの手法を開発した。
コードブックの崩壊を軽減し、エンドツーエンドのトレーニングを可能にするために、コサイン類似性に基づく課題を採用した。
DKM(Dariable K-Means)における注意に基づく定式化の考え方に基づいて、トップ1サンプリングとストレートスルー推定器を組み合わせた代入にコサイン類似性を用いることにより、重み付き平均再構成の必要性を排除し、このアプローチをさらに改善した。
最後に,階層単位の量子化構成を適応的に選択し,さらに圧縮過程を最適化するために,微分可能なニューラルネットワーク探索(NAS)を用いて検討した。
提案手法は,すべての量子化レベルにおいて既存手法を一貫して上回るものではないが,VQに基づくモデル圧縮手法の設計トレードオフと挙動に関する有用な知見を提供する。
関連論文リスト
- Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。
画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:58:14Z) - Learning Optimal Lattice Vector Quantizers for End-to-end Neural Image Compression [16.892815659154053]
格子ベクトル量子化(LVQ)は、機能間の依存関係をより効果的に活用できる魅力的な代替手段である。
従来のLVQ構造は、均一なソース分布のために設計・最適化されている。
本稿では,この弱点を克服するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-25T06:05:08Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。
我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。
以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-09T09:42:21Z) - LVQAC: Lattice Vector Quantization Coupled with Spatially Adaptive
Companding for Efficient Learned Image Compression [24.812267280543693]
本稿では,空間適応型コンパウンディング(LVQAC)マッピングを併用した新しい格子ベクトル量子化方式を提案する。
エンドツーエンドのCNN画像圧縮モデルでは、一様量子化器をLVQACで置き換えることにより、モデルの複雑さを大幅に増大させることなく、より優れたレート歪み性能が得られる。
論文 参考訳(メタデータ) (2023-03-25T23:34:15Z) - Learning Representations for CSI Adaptive Quantization and Feedback [51.14360605938647]
本稿では,周波数分割二重化システムにおける適応量子化とフィードバックの効率的な手法を提案する。
既存の研究は主に、CSI圧縮のためのオートエンコーダ(AE)ニューラルネットワークの実装に焦点を当てている。
1つはポストトレーニング量子化に基づくもので、もう1つはAEのトレーニング中にコードブックが見つかる方法である。
論文 参考訳(メタデータ) (2022-07-13T08:52:13Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。