Fugu-MT 論文翻訳(概要): Navigating loss manifolds via rigid body dynamics: A promising avenue for robustness and generalisation

論文の概要: Navigating loss manifolds via rigid body dynamics: A promising avenue for robustness and generalisation

arxiv url: http://arxiv.org/abs/2505.19527v1
Date: Mon, 26 May 2025 05:26:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.18719
Title: Navigating loss manifolds via rigid body dynamics: A promising avenue for robustness and generalisation
Title（参考訳）: 剛体力学による損失多様体のナビゲーティング:頑健性と一般化のための有望な道
Authors: Mohammed D. Belgoumri, Mohamed Reda Bouadjenek, Hakim Hacid, Imran Razzak, Sunil Aryal,
Abstract要約: 勾配に基づく最適化を通じて大規模なニューラルネットワークをトレーニングするには、高次元のロスランドスケープをナビゲートする必要がある。我々は、この依存を同時に減らし、鋭い最小化を避ける代替案を提案する。
参考スコア（独自算出の注目度）: 11.729464930866483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training large neural networks through gradient-based optimization requires navigating high-dimensional loss landscapes, which often exhibit pathological geometry, leading to undesirable training dynamics. In particular, poor generalization frequently results from convergence to sharp minima that are highly sensitive to input perturbations, causing the model to overfit the training data while failing to generalize to unseen examples. Furthermore, these optimization procedures typically display strong dependence on the fine structure of the loss landscape, leading to unstable training dynamics, due to the fractal-like nature of the loss surface. In this work, we propose an alternative optimizer that simultaneously reduces this dependence, and avoids sharp minima, thereby improving generalization. This is achieved by simulating the motion of the center of a ball rolling on the loss landscape. The degree to which our optimizer departs from the standard gradient descent is controlled by a hyperparameter, representing the radius of the ball. Changing this hyperparameter allows for probing the loss landscape at different scales, making it a valuable tool for understanding its geometry.
Abstract（参考訳）: 勾配に基づく最適化を通じて大規模なニューラルネットワークをトレーニングするには、しばしば病理幾何学を示す高次元の損失ランドスケープをナビゲートする必要がある。特に、貧弱な一般化はしばしば、入力の摂動に非常に敏感な収束から鋭い最小化へと導かれる。さらに、これらの最適化手順は一般的にロスランドスケープの微細構造に強く依存しており、ロスランドスケープのフラクタル的な性質のために不安定なトレーニングダイナミクスをもたらす。本研究では、この依存を同時に低減し、鋭い最小化を回避し、一般化を改善する代替オプティマイザを提案する。これは、ロスランドスケープ上を転がるボールの中心の動きをシミュレートすることで達成される。我々のオプティマイザが標準勾配降下から離脱する度合いは、ボールの半径を表すハイパーパラメータによって制御される。このハイパーパラメータを変更することで、さまざまなスケールで損失の風景を探索することができ、その幾何学を理解するための貴重なツールとなる。

関連論文リスト

Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks [59.552873049024775]
計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
論文参考訳（メタデータ） (2025-07-02T20:03:34Z)
Can Stability be Detrimental? Better Generalization through Gradient Descent Instabilities [14.741581246137404]
本研究では,大きな学習率によって引き起こされる不安定さが,損失景観の平坦な領域へモデルパラメータを移動させることを示す。最新のベンチマークデータセットでは,これらが優れた一般化性能をもたらすことが判明した。
論文参考訳（メタデータ） (2024-12-23T14:32:53Z)
Dynamical loss functions shape landscape topography and improve learning in artificial neural networks [0.9208007322096533]
クロスエントロピーと平均二乗誤差を動的損失関数に変換する方法を示す。異なるサイズのネットワークに対する検証精度を大幅に向上させる方法を示す。
論文参考訳（メタデータ） (2024-10-14T16:27:03Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Gradient constrained sharpness-aware prompt learning for vision-language models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-09-14T17:13:54Z)
Stabilizing Transformer Training by Preventing Attention Entropy Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文参考訳（メタデータ） (2023-03-11T03:30:47Z)
Understanding and Combating Robust Overfitting via Input Loss Landscape Analysis and Regularization [5.1024659285813785]
アドリアリトレーニングは過度に適合する傾向があり、原因は明らかになっていない。標準的なトレーニング,特にクリーンロスの最小化による,堅牢なオーバーフィッティング結果が得られます。対向方向に沿った重み付きロジット変動をペナル化することにより、損失景観の平滑化を図るための新しい正規化器を提案する。
論文参考訳（メタデータ） (2022-12-09T16:55:30Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
Tilting the playing field: Dynamical loss functions for machine learning [18.831125493827766]
学習中に周期的に進化する損失関数を用いて1つのクラスを同時に強調することにより、学習を改善することができることを示す。改善は、損失を最小限に抑えるために進化するシステムのダイナミクスと、変化する損失景観の相互作用から生じる。
論文参考訳（メタデータ） (2021-02-07T13:15:08Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
The Break-Even Point on Optimization Trajectories of Deep Neural Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文参考訳（メタデータ） (2020-02-21T22:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。