論文の概要: Exploring Model Invariance with Discrete Search for Ultra-Low-Bit Quantization
- arxiv url: http://arxiv.org/abs/2502.06844v1
- Date: Thu, 06 Feb 2025 21:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:45.885679
- Title: Exploring Model Invariance with Discrete Search for Ultra-Low-Bit Quantization
- Title(参考訳): 超低ビット量子化のための離散探索によるモデル不変性の探索
- Authors: Yuqiao Wen, Yanshuai Cao, Lili Mou,
- Abstract要約: ポストトレーニング量子化(Post-training Quantization)は、より少ないビットを使ってモデルを再トレーニングせずに表現する一般的なテクニックである。
本稿では,異なるモデルの不変性を同時に体系的に探求する統合フレームワークであるInvarExploreを提案する。
- 参考スコア(独自算出の注目度): 28.86128814566035
- License:
- Abstract: Large language models have been increasing in size due to their success in a wide range of applications. This calls for a pressing need to reduce memory usage to make them more accessible. Post-training quantization is a popular technique which uses fewer bits (e.g., 4--8 bits) to represent the model without retraining it. However, it remains a challenging task to perform quantization in an ultra-low-bit setup (e.g., 2 bits). In this paper, we propose InvarExplore, a unified framework that systematically explores different model invariance at the same time, allowing us to take advantage of the synergy between each type of invariance. Importantly, InvarExplore features a discrete search algorithm that enables us to explore permutation invariance, which is under-studied as it cannot be optimized with gradient-based methods. Results show that InvarExplore is compatible with existing state-of-the-art methods, achieving an add-on performance improvement over strong competing methods.
- Abstract(参考訳): 大規模な言語モデルは、広範囲のアプリケーションで成功したため、サイズが拡大している。
これにより、よりアクセスしやすいようにメモリ使用量を減らす必要がある。
ポストトレーニング量子化(Post-training Quantization)は、より少ないビット(例:4~8ビット)でモデルを再トレーニングすることなく表現できる一般的な手法である。
しかし、超低ビット設定(例えば、2ビット)で量子化を実行することは依然として難しい課題である。
本稿では,異なるモデルの不変性を同時に体系的に探求する統合フレームワークであるInvarExploreを提案する。
重要な点として、InvarExploreは、置換不変性を探索できる離散探索アルゴリズムを備えており、勾配法では最適化できないため、未検討である。
その結果、InvarExploreは既存の最先端メソッドと互換性があり、強力な競合するメソッドに対するアドオンパフォーマンスの改善を実現していることがわかった。
関連論文リスト
- Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Doubly Deformable Aggregation of Covariance Matrices for Few-shot
Segmentation [25.387090319723715]
注釈付きサンプルの少ないセマンティックセグメンテーションモデルを訓練することは、実世界の様々な応用に大きな可能性を持っている。
数ショットのセグメンテーションタスクでは、サポートとクエリサンプル間のセマンティック対応を正確に測定する方法が主な課題である。
本稿では,学習可能な共分散行列を変形可能な4次元変換器で集約し,セグメント化マップを効果的に予測する。
論文 参考訳(メタデータ) (2022-07-30T20:41:38Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Oops I Took A Gradient: Scalable Sampling for Discrete Distributions [53.3142984019796]
このアプローチは、多くの困難な設定において、ジェネリックサンプリングよりも優れていることを示す。
また,高次元離散データを用いた深部エネルギーモデルトレーニングのための改良型サンプリング器についても実演した。
論文 参考訳(メタデータ) (2021-02-08T20:08:50Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。