論文の概要: A geometric framework for momentum-based optimizers for low-rank training
- arxiv url: http://arxiv.org/abs/2506.17475v1
- Date: Fri, 20 Jun 2025 20:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.432928
- Title: A geometric framework for momentum-based optimizers for low-rank training
- Title(参考訳): 低ランクトレーニングのための運動量に基づくオプティマイザのための幾何学的枠組み
- Authors: Steffen Schotthöfer, Timon Klein, Jonas Kusch,
- Abstract要約: 低ランクの事前学習と微調整が、大規模ニューラルネットワークの計算コストと記憶コストを削減できる有望な技術として登場した。
古典的運動量法は、基礎となる最適化景観の幾何学のため、局所最適に収束するのに苦労することを示す。
動的低ランク近似から導かれる新しいトレーニング戦略を導入し,その基礎となる幾何学的構造を明示的に説明する。
- 参考スコア(独自算出の注目度): 2.389598109913754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank pre-training and fine-tuning have recently emerged as promising techniques for reducing the computational and storage costs of large neural networks. Training low-rank parameterizations typically relies on conventional optimizers such as heavy ball momentum methods or Adam. In this work, we identify and analyze potential difficulties that these training methods encounter when used to train low-rank parameterizations of weights. In particular, we show that classical momentum methods can struggle to converge to a local optimum due to the geometry of the underlying optimization landscape. To address this, we introduce novel training strategies derived from dynamical low-rank approximation, which explicitly account for the underlying geometric structure. Our approach leverages and combines tools from dynamical low-rank approximation and momentum-based optimization to design optimizers that respect the intrinsic geometry of the parameter space. We validate our methods through numerical experiments, demonstrating faster convergence, and stronger validation metrics at given parameter budgets.
- Abstract(参考訳): 大規模ニューラルネットワークの計算コストとストレージコストを削減するための有望なテクニックとして、低ランクの事前トレーニングと微調整が最近登場した。
低ランクパラメータ化の訓練は通常、重い球運動量法やアダムのような従来の最適化手法に依存している。
本研究では,重みの低階パラメタライゼーションをトレーニングする場合に,これらのトレーニング手法が直面する潜在的な困難を同定し,解析する。
特に、古典運動量法は、基礎となる最適化景観の幾何学のため、局所最適に収束するのに苦労することを示す。
そこで本研究では,その基礎となる幾何学的構造を明示的に考慮した,動的低ランク近似に基づく新たなトレーニング戦略を提案する。
提案手法は, 動的低ランク近似と運動量に基づく最適化から, パラメータ空間の内在的幾何を尊重する設計最適化まで, ツールを活用・結合する。
提案手法は数値実験により検証し, より高速な収束, パラメータ予算での検証指標を検証した。
関連論文リスト
- Improving Learning to Optimize Using Parameter Symmetries [16.76912881772023]
パラメータ空間対称性を利用して効率を向上させる学習最適化(L2O)アルゴリズムを解析する。
この結果から,ニューラルネットワークパラメータ空間対称性を利用してメタ最適化を推し進める可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-21T19:03:23Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Gradient-free neural topology optimization [0.0]
勾配のないアルゴリズムは勾配に基づくアルゴリズムと比較して多くの繰り返しを収束させる必要がある。
これにより、反復1回あたりの計算コストとこれらの問題の高次元性のため、トポロジ最適化では実現不可能となった。
我々は,潜時空間における設計を最適化する場合に,少なくとも1桁の繰り返し回数の減少につながる事前学習型ニューラルリパラメータ化戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:00:49Z) - Transformer-Based Learned Optimization [37.84626515073609]
ニューラルネットワークを用いて計算の更新ステップを表現できる学習最適化手法を提案する。
私たちの革新は、古典的なBFGSアルゴリズムにインスパイアされた、新しいニューラルネットワークアーキテクチャです。
最適化アルゴリズムの評価に伝統的に用いられてきた目的関数からなるベンチマークにおいて,提案手法の利点を実証する。
論文 参考訳(メタデータ) (2022-12-02T09:47:08Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - An AI-Assisted Design Method for Topology Optimization Without
Pre-Optimized Training Data [68.8204255655161]
トポロジ最適化に基づくAI支援設計手法を提示し、最適化された設計を直接的に得ることができる。
設計は、境界条件と入力データとしての充填度に基づいて、人工ニューラルネットワーク、予測器によって提供される。
論文 参考訳(メタデータ) (2020-12-11T14:33:27Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。