論文の概要: GQA-μP: The maximal parameterization update for grouped query attention
- arxiv url: http://arxiv.org/abs/2605.15290v1
- Date: Thu, 14 May 2026 18:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.048532
- Title: GQA-μP: The maximal parameterization update for grouped query attention
- Title(参考訳): GQA-μP:グループ化クエリアテンションのための最大パラメータ化更新
- Authors: Kyle R. Chickering, Huijuan Wang, Mengxi Wu, Alexander Moreno, Muhao Chen, Xuezhe Ma, Daria Soboleva, Joel Hestness, Zhengzhong Liu, Eric Xing,
- Abstract要約: グループクエリアテンション(GQA)のためのPスケールの導出方法を示す。
また,GQA繰り返しハイパーパラメータ間での学習速度の伝達を示すことによって,理論的導出の有効性を示す。
- 参考スコア(独自算出の注目度): 64.99972873396649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperparameter transfer across model architectures dramatically reduces the amount of compute necessary for tuning large language models (LLMs). The maximal update parameterization (μP) ensures transfer through principled mathematical analysis but can be challenging to derive for new model architectures. Building on the spectral feature-learning view of Yang et al. (2023a), we make two advances. First, we promote spectral norm conditions on the weights from a heuristic to the definition of feature learning, and as a consequence arrive at the Complete-P depth and weight-decay scalings without recourse to lazy-learning. Second, we consider a modified spectral norm that preserves the valid scaling law of network weights when weight matrices are not full rank. This enables (to our knowledge, the first) derivation of μP scalings for grouped-query attention (GQA). We demonstrate the efficacy of our theoretical derivations by showing learning rate transfer across the GQA repetition hyperparameter as well as experiments regarding transfer over weight decay.
- Abstract(参考訳): モデルアーキテクチャ間のハイパーパラメータ転送は、大規模言語モデル(LLM)のチューニングに必要な計算量を劇的に削減する。
最大更新パラメタライゼーション(μP)は、原理化された数学的解析を通しての転送を保証するが、新しいモデルアーキテクチャの導出は困難である。
Yang et al (2023a) のスペクトル特徴学習ビューに基づいて, 2つの進歩を行った。
まず,重みのスペクトルノルム条件をヒューリスティックから特徴学習の定義へと推し進め,その結果,遅延学習とは無関係に,完全P深度および重み付きスケールに到達した。
第二に、重み行列が完全階数でない場合のネットワーク重みの有効スケーリング則を補正したスペクトルノルムを考える。
これにより(私たちの知る限り、最初の)グループド・クエリー・アテンション(GQA)のためのμPスケーリングの導出が可能になる。
我々は,GQA繰り返しハイパーパラメータを横断する学習速度の移動を示すことによって,理論導出の有効性を実証するとともに,重量減衰の移動に関する実験を行った。
関連論文リスト
- Learning parameter curves in feedback-based quantum optimization algorithms [0.0]
我々は、MaxCut問題インスタンスを関連するFQAパラメータ曲線にマッピングするために教師学生モデルを訓練する。
数値実験により,FQAパラメータ曲線を精度良く予測できることが示唆された。
これらの結果から,機械学習は,量子アルゴリズムにおけるサンプリングコストとリソースオーバーヘッドを低減するための実践的な経路を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2026-01-13T00:03:44Z) - Quantum-Informed Machine Learning for Predicting Spatiotemporal Chaos [1.5216516276847551]
本稿では,高次元カオスシステムの長期動的挙動に対する量子インフォームド・機械学習(QIML)フレームワークを提案する。
本研究では, 倉本-シヴァシンスキー方程式, 2次元コルモゴロフ流, 完全に発達した3次元乱流流の断面の3つの代表系についてQIMLを評価する。
論文 参考訳(メタデータ) (2025-07-26T08:36:16Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。
我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。
以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-09T09:42:21Z) - Pre-training Tensor-Train Networks Facilitates Machine Learning with Variational Quantum Circuits [70.97518416003358]
変分量子回路(VQC)は、ノイズの多い中間スケール量子(NISQ)デバイス上での量子機械学習を約束する。
テンソルトレインネットワーク(TTN)はVQC表現と一般化を向上させることができるが、結果として得られるハイブリッドモデルであるTTN-VQCは、Polyak-Lojasiewicz(PL)条件による最適化の課題に直面している。
この課題を軽減するために,プレトレーニングTTNモデルとVQCを組み合わせたPre+TTN-VQCを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:08:18Z) - Improving Convergence for Quantum Variational Classifiers using Weight
Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。
重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。
修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文 参考訳(メタデータ) (2022-12-22T13:23:19Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。