論文の概要: The Optimiser Hidden in Plain Sight: Training with the Loss Landscape's Induced Metric
- arxiv url: http://arxiv.org/abs/2509.03594v1
- Date: Wed, 03 Sep 2025 18:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.928919
- Title: The Optimiser Hidden in Plain Sight: Training with the Loss Landscape's Induced Metric
- Title(参考訳): 平地に隠されたオプティマイザー--失われた景観が引き起こす空間の訓練
- Authors: Thomas R. Harvey,
- Abstract要約: ニューラルネットワークをトレーニングするための新しいオプティマイザのクラスを提示する。
新しいオプティマイザはAdamに匹敵する計算複雑性を持つ。
これらのオプティマイザの1つの変種は、効果的なスケジュール学習率を誘導すると見なすこともできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a class of novel optimisers for training neural networks that makes use of the Riemannian metric naturally induced when the loss landscape is embedded in higher-dimensional space. This is the same metric that underlies common visualisations of loss landscapes. By taking this geometric perspective literally and using the induced metric, we develop a new optimiser and compare it to existing methods, namely: SGD, Adam, AdamW, and Muon, across a range of tasks and architectures. Empirically, we conclude that this new class of optimisers is highly effective in low dimensional examples, and provides slight improvement over state-of-the-art methods for training neural networks. These new optimisers have theoretically desirable properties. In particular, the effective learning rate is automatically decreased in regions of high curvature acting as a smoothed out form of gradient clipping. Similarly, one variant of these optimisers can also be viewed as inducing an effective scheduled learning rate and decoupled weight decay is the natural choice from our geometric perspective. The basic method can be used to modify any existing preconditioning method. The new optimiser has a computational complexity comparable to that of Adam.
- Abstract(参考訳): 損失景観が高次元空間に埋め込まれた場合に自然に誘導されるリーマン計量を用いたニューラルネットワークのトレーニングのための新しいオプティマイザのクラスを示す。
これは、損失景観の一般的な視覚化の基盤となるのと同じ計量である。
この幾何学的視点を文字通りと、誘導された計量を用いて、我々は新しいオプティマイザを開発し、それを既存の手法、すなわちSGD、Adam、AdamW、Muonと比較する。
実験により、この新しいオプティマイザのクラスは低次元の例において非常に有効であり、ニューラルネットワークのトレーニングのための最先端の手法よりもわずかに改善されていると結論付けた。
これらの新しいオプティマイザは理論的に望ましい性質を持つ。
特に、勾配クリッピングのスムーズな形態として作用する高い曲率の領域では、有効学習率が自動的に低下する。
同様に、これらのオプティマイザの1つの変種は、効果的なスケジュール学習率を誘導すると見なすことができ、デカップリングされたウェイト崩壊は、幾何学的観点からの自然な選択である。
基本的な方法は、既存のプレコンディショニングメソッドを変更できる。
新しいオプティマイザはAdamに匹敵する計算複雑性を持つ。
関連論文リスト
- A geometric framework for momentum-based optimizers for low-rank training [2.389598109913754]
低ランクの事前学習と微調整が、大規模ニューラルネットワークの計算コストと記憶コストを削減できる有望な技術として登場した。
古典的運動量法は、基礎となる最適化景観の幾何学のため、局所最適に収束するのに苦労することを示す。
動的低ランク近似から導かれる新しいトレーニング戦略を導入し,その基礎となる幾何学的構造を明示的に説明する。
論文 参考訳(メタデータ) (2025-06-20T20:46:01Z) - Deep Learning Optimization Using Self-Adaptive Weighted Auxiliary Variables [20.09691024284159]
本稿では,ニューラルネットワークや物理インフォームドネットワークによる学習のための新しいフレームワークを開発する。
私たちのフレームワークの堅牢性は、新しい損失が元の問題を最適化するのに役立ちます。
論文 参考訳(メタデータ) (2025-04-30T10:43:13Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - No Wrong Turns: The Simple Geometry Of Neural Networks Optimization
Paths [12.068608358926317]
1次最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。
2つの鍵経路における標本最適化量の基本的な幾何学的性質に焦点をあてる。
以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-20T22:10:40Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。