論文の概要: Beyond Perplexity: A Geometric and Spectral Study of Low-Rank Pre-Training
- arxiv url: http://arxiv.org/abs/2605.13652v2
- Date: Tue, 19 May 2026 00:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.279306
- Title: Beyond Perplexity: A Geometric and Spectral Study of Low-Rank Pre-Training
- Title(参考訳): 難易度を超えて:低ランクプレトライニングの幾何学的および分光学的研究
- Authors: Namrata Shivagunde, Vijeta Deshpande, Sherin Muckatira, Anna Rumshisky,
- Abstract要約: 検証の難易度が近い場合でも,低ランクの手法はフルランクの訓練と同等ではなく,互いに同等ではないことを示す。
低ランクアクティベーションは、トレーニングが進むにつれて、後層のフルランクから分岐し、GaLoreはフルランクを追跡する。
- 参考スコア(独自算出の注目度): 11.118638230247951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training large language models is dominated by the memory cost of storing full-rank weights, gradients, and optimizer states. Low-rank pre-training has emerged to address this, and the space of methods has grown rapidly. A central question remains open: do low-rank methods produce models that generalize comparably to full-rank training, or does the rank constraint fundamentally alter the solutions reached? Existing comparisons rely almost entirely on validation perplexity from single-seed runs, often carried forward from prior literature. Yet perplexity is a poor proxy for solution quality; two methods can match on perplexity while converging to different loss landscape regions and internal representations. We close this gap by characterizing the solutions found by five low-rank pre-training methods, GaLore and Fira (memory-efficient optimizers), CoLA and SLTrain (architecture reparameterizations), and ReLoRA (adapter-style updates with periodic resets), against full-rank training at three model scales (60M, 130M, 350M). We evaluate each along 16 metrics across four dimensions: 1-D loss landscape along random/top-K PCA directions, 1-D interpolation between checkpoints, spectral structure of the weights and learned updates, and activation similarity to full-rank training. We show that low-rank methods are not equivalent to full-rank training, nor to one another, even when validation perplexity is close. Full-rank training settles into a sharper basin than low-rank methods along random directions, while the reverse holds for the top-1 PCA direction. Each method converges to a geometrically distinct basin. Low-rank activations diverge from full-rank in later layers as training progresses, with GaLore tracking full-rank most closely. Further, validation perplexity does not translate to downstream performance at every scale. Adding geometric and spectral metrics improves the prediction.
- Abstract(参考訳): 事前トレーニングされた大きな言語モデルは、フルランクの重み、勾配、オプティマイザ状態を格納するメモリコストに支配されている。
低ランク事前学習はこの問題に対処するために現れており、メソッドの空間は急速に成長している。
低ランクのメソッドは、フルランクのトレーニングに相容れない一般化を行うモデルを生成するのか、それとも、ランク制約が到達した解を根本的に変えるのか?
既存の比較は、ほとんど完全に単座実行による検証の難易度に依存しており、しばしば以前の文献から先延ばしされる。
2つの手法は、異なるロスランドスケープ領域と内部表現に収束しながら、パープレキシティにマッチする。
5つの低ランク事前学習手法、GaLoreとFira(メモリ効率の最適化)、CoLAとSLTrain(アーキテクチャのパラメータ化)、ReLoRA(周期的なリセットを伴うアダプタスタイルの更新)による3つのモデルスケール(60M, 130M, 350M)のフルランクトレーニングに対するソリューションを特徴付けることで、このギャップを埋める。
ランダム/トップKPCA方向の1-Dロスランドスケープ,チェックポイント間の1-D補間,重みと学習した更新のスペクトル構造,フルランクトレーニングとのアクティベーション類似性,の4次元にわたる16つの指標について評価した。
検証の難易度が近い場合でも,低ランクの手法はフルランクの訓練と同等ではなく,互いに同等ではないことを示す。
フルランクトレーニングはランダムな方向に沿って低ランクメソッドよりもシャープな盆地に落ち着き、逆はトップ1PCA方向を保っている。
それぞれの方法は幾何学的に異なる盆地に収束する。
低ランクアクティベーションは、トレーニングが進むにつれて、後層のフルランクから分岐し、GaLoreはフルランクを追跡する。
さらに、検証の難易度は、すべてのスケールでダウンストリームのパフォーマンスに変換されない。
幾何学的およびスペクトル的メトリクスを追加することで、予測が改善される。
関連論文リスト
- Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks [17.067788440109137]
現在、Mixture-of-Experts (MoE)モデルは最先端システムでは標準となっている。
記憶能力と推論能力の2つの異なる能力体制にMoEがどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-08-26T04:31:28Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Geometry-aware training of factorized layers in tensor Tucker format [6.701651480567394]
重みテンソルのタッカー分解の要因を学習するための新しい手法を提案する。
トレーニングの提案は, 元の非リファクタリング力学を局所的に近似する上で最適であることが証明された。
本稿では,アルゴリズムの理論解析を行い,収束,近似,局所降下保証を示す。
論文 参考訳(メタデータ) (2023-05-30T14:20:51Z) - Cuttlefish: Low-Rank Model Training without All the Tuning [55.984294012024755]
自動低ランクトレーニングアプローチであるCuttlefishを紹介します。
カトルフィッシュは、すべての階層の安定したランクが収束すると、フルランクからローランクのトレーニングに切り替える。
以上の結果から,Cuttlefishはフルランクモデルの最大5.6倍のモデルを生成し,エンドツーエンドのトレーニングプロセスの最大1.2倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-05-04T04:20:20Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。