論文の概要: MLoRQ: Bridging Low-Rank and Quantization for Transformer Compression
- arxiv url: http://arxiv.org/abs/2507.09616v1
- Date: Sun, 13 Jul 2025 12:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.585406
- Title: MLoRQ: Bridging Low-Rank and Quantization for Transformer Compression
- Title(参考訳): MLoRQ:変圧器圧縮のためのブリッジング低ランクと量子化
- Authors: Ofir Gordon, Ariel Lapid, Elad Cohen, Yarden Yagil, Arnon Netzer, Hai Victor Habi,
- Abstract要約: MLoRQ(Mixed Low-Rank and Quantization)は、低ランク近似と混合精度量子化を統合する新しい手法である。
MLoRQは、最先端の結果を最大15%のパフォーマンス改善で示している。
- 参考スコア(独自算出の注目度): 2.9907287985468924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying transformer-based neural networks on resource-constrained edge devices presents a significant challenge. This challenge is often addressed through various techniques, such as low-rank approximation and mixed-precision quantization. In this work, we introduce Mixed Low-Rank and Quantization (MLoRQ), a novel method that integrates both techniques. MLoRQ employs a two-stage optimization process to determine optimal bit-width and rank assignments for each layer, adhering to predefined memory constraints. This process includes: (i) an intra-layer optimization that identifies potentially optimal compression solutions out of all low-rank and quantization combinations; (ii) an inter-layer optimization that assigns bit-width precision and rank to each layer while ensuring the memory constraint is met. An optional final step applies a sequential optimization process using a modified adaptive rounding technique to mitigate compression-induced errors in joint low-rank approximation and quantization. The method is compatible and can be seamlessly integrated with most existing quantization algorithms. MLoRQ shows state-of-the-art results with up to 15\% performance improvement, evaluated on Vision Transformers for image classification, object detection, and instance segmentation tasks.
- Abstract(参考訳): リソース制約のあるエッジデバイスにトランスフォーマーベースのニューラルネットワークをデプロイすることは、大きな課題である。
この課題は、低ランク近似や混合精度量子化など、様々な手法によって解決されることが多い。
本研究では,両者を統合する新しい手法であるMixed Low-Rank and Quantization (MLoRQ)を紹介する。
MLoRQは2段階の最適化プロセスを用いて、各レイヤの最適なビット幅とランク割り当てを決定し、事前に定義されたメモリ制約に固執する。
このプロセスには以下のものが含まれる。
(i)すべての低ランクおよび量子化の組み合わせのうち、潜在的に最適な圧縮解を識別する層内最適化
(II)メモリ制約を満たさずに各層にビット幅精度とランクを割り当てる層間最適化。
任意の最終段階は、修正適応丸め法を用いて、共同低ランク近似および量子化における圧縮誘起誤差を軽減するシーケンシャルな最適化プロセスを適用する。
この方法は互換性があり、既存の量子化アルゴリズムとシームレスに統合できる。
MLoRQは、画像分類、オブジェクト検出、インスタンスセグメンテーションタスクのためのVision Transformerで評価され、最大15倍の性能向上を示す。
関連論文リスト
- A Gradient Meta-Learning Joint Optimization for Beamforming and Antenna Position in Pinching-Antenna Systems [63.213207442368294]
マルチ導波路ピンチアンテナシステムの新しい最適化設計について検討する。
提案したGML-JOアルゴリズムは,既存の最適化手法と比較して,様々な選択や性能に頑健である。
論文 参考訳(メタデータ) (2025-06-14T17:35:27Z) - Scalable Min-Max Optimization via Primal-Dual Exact Pareto Optimization [66.51747366239299]
拡張ラグランジアンに基づくmin-max問題のスムーズな変種を提案する。
提案アルゴリズムは, 段階的戦略よりも目的数で拡張性が高い。
論文 参考訳(メタデータ) (2025-03-16T11:05:51Z) - Investigating layer-selective transfer learning of QAOA parameters for Max-Cut problem [1.515687944002438]
パラメータ転送後のMax-Cut問題の近似解を改善する上での個別QAOA層の役割を数値的に検討する。
これらの研究は、全てのレイヤを最適化するよりも、より少ない時間で、レイヤのサブセットを最適化することがより効果的であることを示している。
論文 参考訳(メタデータ) (2024-12-30T16:41:16Z) - Variational quantum algorithm for enhanced continuous variable optical
phase sensing [0.0]
変分量子アルゴリズム(VQA)は、ノイズ量子デバイスにおける幅広い問題に対処するために用いられるハイブリッド量子古典的アプローチである。
本研究では, 連続変数プラットフォーム上でのパラメータ推定の最適化のために, 圧縮光に基づく変分アルゴリズムを実装した。
論文 参考訳(メタデータ) (2023-12-21T14:11:05Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - Mixed-Precision Quantization for Deep Vision Models with Integer Quadratic Programming [7.0146264551420066]
量子化はニューラルネットワークを圧縮する技術として広く使われている。
MPQは、様々なビット幅をレイヤに割り当て、精度と効率のトレードオフを最適化することで、この問題に対処する。
我々は、量子化誤差の層間依存性をキャプチャする実用的な感度に基づくMPQアルゴリズムであるCLADOを紹介する。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Towards Mixed-Precision Quantization of Neural Networks via Constrained
Optimization [28.76708310896311]
本稿では,混合精度量子化問題を解くための原理的枠組みを提案する。
提案手法は原理的手法で導出され,より計算効率がよいことを示す。
論文 参考訳(メタデータ) (2021-10-13T08:09:26Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。