Fugu-MT 論文翻訳(概要): Neural network optimization strategies and the topography of the loss landscape

論文の概要: Neural network optimization strategies and the topography of the loss landscape

arxiv url: http://arxiv.org/abs/2602.21276v1
Date: Tue, 24 Feb 2026 17:49:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.570564
Title: Neural network optimization strategies and the topography of the loss landscape
Title（参考訳）: ニューラルネットワーク最適化戦略とロスランドスケープの地形
Authors: Jianneng Yu, Alexandre V. Morozov,
Abstract要約: 勾配降下(SGD)によるニューラルネットワーク学習について検討する。これら2つの最適化手法によって得られたニューラルネットワークパラメータを,いくつかの計算ツールを用いて調査する。
参考スコア（独自算出の注目度）: 45.88028371034407
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural networks are trained by optimizing multi-dimensional sets of fitting parameters on non-convex loss landscapes. Low-loss regions of the landscapes correspond to the parameter sets that perform well on the training data. A key issue in machine learning is the performance of trained neural networks on previously unseen test data. Here, we investigate neural network training by stochastic gradient descent (SGD) - a non-convex global optimization algorithm which relies only on the gradient of the objective function. We contrast SGD solutions with those obtained via a non-stochastic quasi-Newton method, which utilizes curvature information to determine step direction and Golden Section Search to choose step size. We use several computational tools to investigate neural network parameters obtained by these two optimization methods, including kernel Principal Component Analysis and a novel, general-purpose algorithm for finding low-height paths between pairs of points on loss or energy landscapes, FourierPathFinder. We find that the choice of the optimizer profoundly affects the nature of the resulting solutions. SGD solutions tend to be separated by lower barriers than quasi-Newton solutions, even if both sets of solutions are regularized by early stopping to ensure adequate performance on test data. When allowed to fit extensively on the training data, quasi-Newton solutions occupy deeper minima on the loss landscapes that are not reached by SGD. These solutions are less generalizable to the test data however. Overall, SGD explores smooth basins of attraction, while quasi-Newton optimization is capable of finding deeper, more isolated minima that are more spread out in the parameter space. Our findings help understand both the topography of the loss landscapes and the fundamental role of landscape exploration strategies in creating robust, transferrable neural network models.
Abstract（参考訳）: ニューラルネットワークは、非凸ロスランドスケープ上の多次元の適合パラメータ集合を最適化することによって訓練される。ランドスケープの低損失領域は、トレーニングデータでよく機能するパラメータセットに対応する。機械学習の大きな問題は、トレーニング済みのニューラルネットワークのパフォーマンスだ。本稿では,対象関数の勾配のみに依存する非凸グローバル最適化アルゴリズムである確率勾配勾配勾配(SGD)によるニューラルネットワークトレーニングについて検討する。本研究では,SGD法と非確率的準ニュートン法を用いて得られた解とを対比し,曲率情報を用いてステップ方向とゴールデンセクション探索を用いてステップサイズを選択する。本稿では,これらの2つの最適化手法を用いて得られたニューラルネットワークパラメータを解析するために,カーネル・プリンシパル・コンポーネント・アナリティクスと,損失点とエネルギー景観のペア間の低ハイトパスを見つけるための新しい汎用アルゴリズムであるFourierPathFinderについて検討する。このオプティマイザの選択は、結果のソリューションの性質に大きく影響することがわかった。 SGDソリューションは、試験データにおける適切な性能を確保するために、早期停止によって両方のソリューションセットが規則化されたとしても、準ニュートンソリューションよりも低い障壁で分離される傾向にある。トレーニングデータに広範囲に適合することが許された場合、準ニュートン解は、SGDが到達しない損失景観のより深い最小限を占有する。しかし、これらの解はテストデータには一般化できない。全体として、SGDはスムーズなアトラクションの盆地を探索し、準ニュートン最適化はパラメータ空間にもっと広がるより深く、より孤立したミニマを見つけることができる。我々の研究は、失われた景観の地形と、堅牢で移動可能なニューラルネットワークモデルを作成する上でのランドスケープ探索戦略の基本的な役割の両方を理解するのに役立ちます。

関連論文リスト

Optimizing the Optimizer for Physics-Informed Neural Networks and Kolmogorov-Arnold Networks [3.758814046658822]
物理情報ニューラルネットワーク(PINN)は、部分マグニチュード方程式(PDE)をニューラルネットワークのトレーニングプロセスにソフト制約として統合することにより、計算PDEソリューションに革命をもたらした。さらに、物理インフォームドネットワーク(PIKAN)も有効であり、精度も同等である。
論文参考訳（メタデータ） (2025-01-22T21:19:42Z)
PACMANN: Point Adaptive Collocation Method for Artificial Neural Networks [41.99844472131922]
PINNは、一組のコロケーションポイントに対して決定されたPDE残差を含む損失関数を最小化する。 PACMANNは勾配に基づく最適化アルゴリズムを用いて、コロケーションポイントを高次残差領域へ段階的に移動させる。この方法の主な特徴は、計算コストの低減と、既存の物理インフォームドニューラルネットワークパイプラインとの統合の簡易化である。
論文参考訳（メタデータ） (2024-11-29T11:31:11Z)
Improving Generalization of Deep Neural Networks by Optimum Shifting [33.092571599896814]
本稿では,ニューラルネットワークのパラメータを最小値からフラット値に変化させる,近位シフトと呼ばれる新しい手法を提案する。本手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を,未決定線形方程式系として扱うことができることを示す。
論文参考訳（メタデータ） (2024-05-23T02:31:55Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Adaptive Self-supervision Algorithms for Physics-informed Neural Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文参考訳（メタデータ） (2022-07-08T18:17:06Z)
Critical Investigation of Failure Modes in Physics-informed Neural Networks [0.9137554315375919]
合成定式化による物理インフォームドニューラルネットワークは、最適化が難しい非学習損失面を生成することを示す。また,2つの楕円問題に対する2つのアプローチを,より複雑な目標解を用いて評価する。
論文参考訳（メタデータ） (2022-06-20T18:43:35Z)
Enhanced Exploration in Neural Feature Selection for Deep Click-Through Rate Prediction Models via Ensemble of Gating Layers [7.381829794276824]
神経機能選択(NFS)の目標は、最も説明力のある比較的小さな機能のサブセットを選択することである。ゲーティングアプローチは、情報の少ない特徴をドロップするために、識別可能なバイナリゲートのセットを挿入する。勾配に基づく解の探索能力を向上させるために,単純だが効果的なアンサンブル学習手法を提案する。
論文参考訳（メタデータ） (2021-12-07T04:37:05Z)
Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文参考訳（メタデータ） (2020-12-31T18:53:25Z)
Persistent Neurons [4.061135251278187]
本稿では,学習課題を最適化するトラジェクトリベースの戦略を提案する。永続ニューロンは、決定論的誤差項によって個々の更新が破損する勾配情報バイアスを持つ方法とみなすことができる。完全かつ部分的なパーシステンスモデルの評価を行い、NN構造における性能向上に有効であることを示す。
論文参考訳（メタデータ） (2020-07-02T22:36:49Z)
The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文参考訳（メタデータ） (2020-06-10T15:38:30Z)
Beyond Dropout: Feature Map Distortion to Regularize Deep Neural Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。上記の問題に対処するための特徴歪み法(Disout)を提案する。より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文参考訳（メタデータ） (2020-02-23T13:59:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。