論文の概要: STQuant: Spatio-Temporal Adaptive Framework for Optimizer Quantization in Large Multimodal Model Training
- arxiv url: http://arxiv.org/abs/2604.06836v1
- Date: Wed, 08 Apr 2026 08:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.439568
- Title: STQuant: Spatio-Temporal Adaptive Framework for Optimizer Quantization in Large Multimodal Model Training
- Title(参考訳): STQuant: 大規模マルチモーダルモデルトレーニングにおける最適化量子化のための時空間適応フレームワーク
- Authors: Minglu Liu, Cunchen Hu, Liangliang Xu, Fengming Tang, Ruijia Wang, Fu Yu,
- Abstract要約: 状態のメモリフットプリントを削減する分散トレーニングフレームワークSTQuantを提案する。
GPT-2 と ViT の実験では、STQuant はメモリの劣化を84.4%削減し、平均ビット幅は5.1ビットである。
STQuantはO(N/K)計算オーバーヘッドのみを発生させ、O(1)余剰空間を必要とする。
- 参考スコア(独自算出の注目度): 4.460241963597604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is an effective way to reduce the memory cost of large-scale model training. However, most existing methods adopt fixed-precision policies, which ignore the fact that optimizer-state distributions vary significantly across layers and training steps. Such uniform designs often introduce noticeable accuracy degradation. To move beyond fixed quantization, we propose STQuant, a distributed training framework that reduces the memory footprint of optimizer states via dynamic precision allocation across layers, state variables, and training steps, while maintaining model quality. Naively applying dynamic quantization during training is challenging for two reasons. First, optimizer states are numerically sensitive, and quantization noise can destabilize quality. Second, jointly considering multiple states and layers induces a large combinatorial search space. STQuant addresses these challenges with two key techniques: 1) a provably near-optimal factor selection strategy that accurately identifies the most influential factors for precision adaptation. 2) a dynamic transition decision algorithm that reduces the search cost from exponential to linear complexity. Experiments on GPT-2 and ViT show that STQuant reduces optimizer-state memory by 84.4%, achieving an average bit-width of as low as 5.1 bits, compared with existing solutions. Moreover, STQuant incurs only O(N/K) computational overhead and requires O(1) extra space.
- Abstract(参考訳): 量子化は、大規模なモデルトレーニングのメモリコストを削減する効果的な方法である。
しかし、既存のほとんどのメソッドは固定精度ポリシーを採用しており、これは最適化状態の分布が層やトレーニングステップによって大きく異なるという事実を無視している。
このような均一な設計は、しばしば顕著な精度低下をもたらす。
固定量子化を超えた分散トレーニングフレームワークSTQuantを提案する。これは、モデル品質を維持しながら、レイヤ、状態変数、トレーニングステップ間の動的精度割り当てにより、最適化状態のメモリフットプリントを削減する。
トレーニング中に動的量子化を適用することは、2つの理由から難しい。
まず、最適化状態は数値的に感度が高く、量子化ノイズは品質を不安定にする。
第二に、複数の状態と層を共同で考えると、大きな組合せ探索空間が生じる。
STQuantは、これらの課題に2つの重要なテクニックで対処する。
1) 精度適応に最も影響を及ぼす因子を正確に同定する, ほぼ最適因子選択戦略である。
2) 探索コストを指数関数から線形複雑度に削減する動的遷移決定アルゴリズム。
GPT-2 と ViT の実験では、STQuant は最適化状態のメモリを84.4%削減し、既存のソリューションと比較して5.1ビットの平均ビット幅を実現している。
さらに、STQuantはO(N/K)計算オーバーヘッドのみを発生させ、O(1)余剰空間を必要とする。
関連論文リスト
- AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning [23.59600455731982]
混合量子化微調整プロセスにおいて,各レイヤのビット幅とLoRAランク設定を同時に最適化する共同最適化フレームワークを提案する。
実験によると、AutoQRAは、均一な4ビットメソッドに匹敵するメモリフットプリントで、完全精度の微調整に近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-25T07:18:08Z) - RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。
本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。
RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文 参考訳(メタデータ) (2026-02-05T06:41:11Z) - DPQuant: Efficient and Differentially-Private Model Training via Dynamic Quantization Scheduling [7.79764032127686]
Differentially-Private SGD(DP-SGD)は、機密データを使用してニューラルネットワークをトレーニングする際のユーザのプライバシを保護する強力なテクニックである。
DP-SGDの量子化は,通常のSGDに比べて高い精度で劣化することを示した。
QPQuantは動的量子化フレームワークであり、各エポックで量子化するレイヤの変動部分集合を適応的に選択する。
論文 参考訳(メタデータ) (2025-09-03T16:51:26Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - Regularized second-order optimization of tensor-network Born machines [2.8834278113855896]
ボルンマシン(英: Born Machine、TNBM)は、データ分布を学習するための量子インスパイアされた生成モデルである。
TNBMの鍵となるボトルネックは、この問題によく使用される損失関数の対数的性質である。
そこで本研究では,TNBMトレーニングにおける2次最適化手法を改良し,収束率と最適化モデルの品質を大幅に向上させる。
論文 参考訳(メタデータ) (2025-01-30T19:00:04Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。