論文の概要: Only relative ranks matter in weight-clustered large language models
- arxiv url: http://arxiv.org/abs/2603.17917v1
- Date: Wed, 18 Mar 2026 16:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.833115
- Title: Only relative ranks matter in weight-clustered large language models
- Title(参考訳): 重み付き大言語モデルにおける相対ランクのみの問題
- Authors: Borja Aizpurua, Sukhbinder Singh, Román Orús,
- Abstract要約: 大規模言語モデル(LLM)は数十億のパラメータを含むが、多くの正確な値は必須ではない。
重みの相対的なランクは、ある接続が正確な大きさよりも強いか弱いかを示す。
Llama 3.1-8B-Instruct と SmolLM2-135M では、各行列を16-64個の異なる値に減らし、再トレーニングすることなく高い精度を保っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) contain billions of parameters, yet many exact values are not essential. We show that what matters most is the relative rank of weights-whether one connection is stronger or weaker than another-rather than precise magnitudes. To reduce the number of unique weight values, we apply weight clustering to pretrained models, replacing every weight matrix with K shared values from K-means. For Llama 3.1-8B-Instruct and SmolLM2-135M, reducing each matrix to only 16-64 distinct values preserves strong accuracy without retraining, providing a simple, training-free method to compress LLMs on disk. Optionally fine-tuning only the cluster means (centroids) recovers 30-40 percent of the remaining accuracy gap at minimal cost. We then systematically randomize cluster means while keeping assignments fixed. Scrambling the relative ranks of the clusters degrades quality sharply-perplexity can increase by orders of magnitude-even when global statistics such as mean and variance are preserved. In contrast, rank-preserving randomizations cause almost no loss at mid and late layers. On the other hand, when many layers are perturbed simultaneously, progressive layer-by-layer replacement reveals that scale drift-not rank distortion-is the dominant collapse mechanism; however, an affine correction w' = aw + b with a > 0 (which preserves both rank order and overall weight distribution) can substantially delay this drift. This rank-based perspective offers a new lens on model compression and robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は数十億のパラメータを含むが、多くの正確な値は必須ではない。
重みの相対的なランクは、ある接続が正確な大きさよりも強いか弱いかを示す。
独特な重み値の数を減らすために、事前訓練されたモデルに重みクラスタリングを適用し、すべての重み行列をK平均の共有値に置き換える。
Llama 3.1-8B-Instruct と SmolLM2-135M では、各行列を16-64個の異なる値に減らし、再トレーニングせずに高い精度を保つ。
任意の微調整は、クラスタ平均(セントロイド)だけが最小のコストで残りの精度ギャップの30~40%を回復する。
次に、割り当てを固定しながらクラスタ平均を体系的にランダム化する。
クラスタの相対ランクのスクランブルは、平均や分散といった大局的な統計が保存されている場合、品質を急激に劣化させる。
対照的に、ランク保存ランダム化は中層と後期層でほとんど損失を生じない。
一方、多くの層が同時に摂動されると、進行層ごとの置換により、スケールドリフト非ランクの歪みが支配的な崩壊機構であることを明らかにするが、アフィン補正 w' = aw + b と a > 0 (階数順序と全体の重量分布の両方を保存する) は、このドリフトを著しく遅らせる可能性がある。
このランクに基づく視点は、モデル圧縮と堅牢性に関する新しいレンズを提供する。
関連論文リスト
- CAIRO: Decoupling Order from Scale in Regression [13.755937210012883]
回帰を2つの異なる段階に分離する枠組みを提案する。
第1段階では,スケール不変ランキングの損失を最小限に抑えることで,スコアリング関数を学習する。
第2に,等速回帰による目標スケールの復元を行う。
論文 参考訳(メタデータ) (2026-02-16T03:50:05Z) - MetaCluster: Enabling Deep Compression of Kolmogorov-Arnold Network [8.780976521229741]
Kolmogorov-Arnold Networks (KAN) はスカラーウェイトを基底係数のエッジベクトルに置き換える。
精度を犠牲にすることなく高圧縮性を実現するフレームワークであるMetaClusterを提案する。
論文 参考訳(メタデータ) (2025-10-21T21:58:15Z) - Benign Overfitting and the Geometry of the Ridge Regression Solution in Binary Classification [75.01389991485098]
リッジ回帰はクラスタ平均ベクトルのスケールによって定性的に異なる挙動を示す。
スケールが非常に大きいレジームでは、良心過剰を許容する条件は回帰タスクと同一であることが判明した。
論文 参考訳(メタデータ) (2025-03-11T01:45:42Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Gradient-based Weight Density Balancing for Robust Dynamic Sparse
Training [59.48691524227352]
スパースニューラルネットワークをゼロからトレーニングするには、接続自体と同時にコネクションを最適化する必要がある。
トレーニング中に各レイヤ間の接続は複数回最適化されるが、各レイヤの密度は通常一定である。
我々は、すべての層に重みを分散するテクニックであるGlobal Gradient-based Redistributionを提案する。
論文 参考訳(メタデータ) (2022-10-25T13:32:09Z) - Benign Overfitting in Multiclass Classification: All Roads Lead to
Interpolation [39.02017410837255]
多クラス線形分類における良性オーバーフィッティングについて検討する。
分離可能なデータに対する以下のトレーニングアルゴリズムを検討する。
MNI分類器の精度に基づいた新しい境界を導出する。
論文 参考訳(メタデータ) (2021-06-21T05:34:36Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。