論文の概要: GAMMA: Global Bit Allocation for Mixed-Precision Models under Arbitrary Budgets
- arxiv url: http://arxiv.org/abs/2605.18475v1
- Date: Mon, 18 May 2026 14:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.414397
- Title: GAMMA: Global Bit Allocation for Mixed-Precision Models under Arbitrary Budgets
- Title(参考訳): GAMMA:任意予算下における混合精度モデルのためのグローバルビット割り当て
- Authors: Zhangyang Yao, Haiyan Zhao, Haoyu Wang, Tianbo Huang, Lihua Zhang, Xu Han,
- Abstract要約: 混合精度量子化は、大規模言語モデルの高精度トレードオフを改善する。
GAMMAは,モジュール単位の精度の選好を,学習後のパイプライン内で完全に学習するフレームワークである。
- 参考スコア(独自算出の注目度): 28.100700446484595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed-precision quantization improves the budget--accuracy trade-off for large language models (LLMs) by allocating more bits to sensitive modules. However, automating this allocation at LLM scale faces a unique combination of constraints: learnable approaches require quantization-aware training, which is infeasible for billion-parameter models; training-free alternatives rely on static proxy metrics that miss cross-module interactions and must be recomputed per target budget; and search-based methods are expensive without guaranteeing exact budget compliance. We propose GAMMA, a quantizer-agnostic framework that learns module-wise precision preferences entirely within a post-training pipeline. GAMMA optimizes a teacher-forced hidden-state reconstruction objective under an augmented Lagrangian constraint, and projects the learned preferences into exact budget-feasible discrete assignments via integer programming. A key property is score reuse: because the learned preferences encode a stable sensitivity ranking rather than budget-specific weights, a single training run serves arbitrary deployment targets by re-solving only the integer program, reducing per-budget adaptation from hours to a few minutes. Across Llama and Qwen models (8B--32B), GAMMA outperforms both fixed-precision baselines (up to +12.99 Avg.) and search-based mixed-precision methods (up to +7.00 Avg.), and can match fixed 3-bit quality at 2.5-bit average precision, enabling deployment at substantially smaller memory footprints.
- Abstract(参考訳): 混合精度量子化は、より多くのビットを機密モジュールに割り当てることで、大規模言語モデル(LLM)の予算精度トレードオフを改善する。
学習可能なアプローチには量子化を意識したトレーニングが必要で、これは10億パラメータモデルでは不可能である。
本稿では,モジュール単位の精度の選好を後学習パイプライン内で完全に学習する量化器非依存のフレームワークであるGAMAを提案する。
GAMMAは、拡張されたラグランジアン制約の下で教師が強制する隠れ状態再構築目標を最適化し、学習された選好を整数プログラミングを通じて正確に予算可能な個別の割り当てに投影する。
学習された選好は予算固有の重みよりも安定した感度ランキングを符号化するため、単一のトレーニングランは整数プログラムのみを解決し、予算ごとの適応時間を数時間から数分に短縮することで任意のデプロイメントターゲットを提供する。
Llama と Qwen モデル (8B--32B) 全体では、GAMMA は固定精度ベースライン (+12.99 Avg. まで) と検索ベースの混合精度メソッド (+7.00 Avg. まで) の両方を上回り、2.5ビットの平均精度で固定された3ビット品質と一致させることができる。
関連論文リスト
- A Feature-Driven Framework for Software Fault Prediction [0.4104921880358479]
ソフトウェアフォールト予測(ソフトウェアフォールト予測、英: Software fault prediction、SFP)は、ソフトウェア工学において重要なタスクであり、モジュール内の障害を早期に識別し、ソフトウェア品質を改善し、メンテナンスコストを削減できる。
本研究では,特徴選択とパラメータチューニングがSFPの機械学習モデルの性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2026-05-17T19:16:20Z) - Model Compression with Exact Budget Constraints via Riemannian Manifolds [39.54576236079211]
トータルコスト予算の下で各NグループにKオプションの1つを割り当てることは、効率的なAIにおいて繰り返し発生する問題である。
我々は、ソフトマックス緩和の下で、予算制約がロジット空間における滑らかなリーマン多様体を異常に単純な幾何学で定義することを示す新しいアプローチを示す。
これらの特性に基づいて、接射影、二分探索リトラクション、運動量輸送を標準とするリーマン制約最適化(RCO)を提案する。
論文 参考訳(メタデータ) (2026-05-01T13:30:23Z) - Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization [18.737087162461563]
テストタイムの計算スケーリングは、大規模言語モデルのパフォーマンスを向上させるための強力なレバーとなっている。
しかし、これらのテクニックを有限の推論予算の下で展開するには、現在のシステムがほとんど無視する決定が必要である。
我々はこれを制約付き最適化問題(平均計算予算の予測精度を最大化する)として定式化し、2段階のソルベ・テン・ラーンパイプラインで解いた。
論文 参考訳(メタデータ) (2026-04-16T10:39:22Z) - ScaleBITS: Scalable Bitwidth Search for Hardware-Aligned Mixed-Precision LLMs [14.073708409982705]
学習後重み量子化は,大規模言語モデル(LLM)のメモリと推論コストの低減に不可欠である
本研究では,メモリ予算下でのビット幅の自動割り当てを実現する混合精度量子化フレームワークであるScaleBITSを提案する。
実験により、ScaleBITSは均一精度の量子化(+36%)よりも大幅に改善し、超低ビット状態における最先端の感度認識ベースライン(+13%)よりも優れていた。
論文 参考訳(メタデータ) (2026-02-06T18:11:16Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - Achieving PAC Guarantees in Mechanism Design through Multi-Armed Bandits [8.013444110633223]
自動機構設計のための線形プログラム(LP)に最適解のクラスを解析的に導出する。
これらの解は、元の定式化における変数の総数よりも指数関数的に小さい基本変数の集合を用いて表すことができる。
本稿では,この用語の評価をマルチアーム・バンディット(MAB)問題に翻訳することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-11-30T03:59:36Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。