論文の概要: Curvature in the Looking-Glass: Optimal Methods to Exploit Curvature of Expectation in the Loss Landscape
- arxiv url: http://arxiv.org/abs/2411.16914v1
- Date: Mon, 25 Nov 2024 20:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:37:15.682724
- Title: Curvature in the Looking-Glass: Optimal Methods to Exploit Curvature of Expectation in the Loss Landscape
- Title(参考訳): 展望ガラスの曲率:ロスランドスケープにおける期待曲線の最適解法
- Authors: Jed A. Duersch, Tommie A. Catanach, Alexander Safonov, Jeremy Wendt,
- Abstract要約: 我々は,多くの整列線形単位を持つアーキテクチャにおいて,期待される損失変化の曲率がどのように現れるかを理解するための新しい概念的枠組みを提案する。
我々の導出は、これらの不連続性がどのようにガラスのような構造を形成するかを示しており、これは強いがランダムな原子配列の微視的な領域を含む非晶質固体と類似している。
ガラスとヘッセンの項とネステロフ加速勾配更新で可能な特定の精度特性を組み込んだ準ニュートンステップの最適修正を導出する。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License:
- Abstract: Harnessing the local topography of the loss landscape is a central challenge in advanced optimization tasks. By accounting for the effect of potential parameter changes, we can alter the model more efficiently. Contrary to standard assumptions, we find that the Hessian does not always approximate loss curvature well, particularly near gradient discontinuities, which commonly arise in deep learning architectures. We present a new conceptual framework to understand how curvature of expected changes in loss emerges in architectures with many rectified linear units. Each ReLU creates a parameter boundary that, when crossed, induces a pseudorandom gradient perturbation. Our derivations show how these discontinuities combine to form a glass-like structure, similar to amorphous solids that contain microscopic domains of strong, but random, atomic alignment. By estimating the density of the resulting gradient variations, we can bound how the loss may change with parameter movement. Our analysis includes the optimal kernel and sample distribution for approximating glass density from ordinary gradient evaluations. We also derive the optimal modification to quasi-Newton steps that incorporate both glass and Hessian terms, as well as certain exactness properties that are possible with Nesterov-accelerated gradient updates. Our algorithm, Alice, tests these techniques to determine which curvature terms are most impactful for training a given architecture and dataset. Additional safeguards enforce stable exploitation through step bounds that expand on the functionality of Adam. These theoretical and experimental tools lay groundwork to improve future efforts (e.g., pruning and quantization) by providing new insight into the loss landscape.
- Abstract(参考訳): ロスランドスケープの局所的な地形の調和は、高度な最適化タスクにおける中心的な課題である。
ポテンシャルパラメータの変化の影響を考慮し、より効率的にモデルを変更することができる。
標準的な仮定とは対照的に、Hessian は必ずしも損失曲率をよく近似するとは限らない。
我々は,多くの整列線形単位を持つアーキテクチャにおいて,期待される損失変化の曲率がどのように現れるかを理解するための新しい概念的枠組みを提案する。
各ReLUはパラメータ境界を作成し、交差すると擬似ランダム勾配摂動を誘導する。
我々の導出は、これらの不連続性がどのようにガラスのような構造を形成するかを示しており、これは強いがランダムな原子配列の微視的な領域を含む非晶質固体と類似している。
結果として生じる勾配変動の密度を推定することにより、損失がパラメータ移動によってどのように変化するのかを予測できる。
本分析は, ガラス密度を通常の勾配評価から近似するための最適カーネルと試料分布を含む。
また、ガラスとヘッセンの項とネステロフ加速勾配の更新で可能な特定の精度特性を組み込んだ準ニュートンステップの最適修正も導出する。
私たちのアルゴリズムであるAliceは、これらのテクニックをテストして、与えられたアーキテクチャとデータセットをトレーニングするのに最も影響のある曲率項を判断します。
追加のセーフガードは、Adamの機能を拡張するステップバウンダリを通じて安定したエクスプロイトを強制する。
これらの理論的および実験的なツールは、損失景観に関する新たな洞察を提供することで、将来の取り組み(例えば、刈り取りや量子化)を改善するための土台を築いた。
関連論文リスト
- Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Charting the Topography of the Neural Network Landscape with
Thermal-Like Noise [0.0]
ニューラルネットワークのトレーニングは、複雑で、高次元、非二次的、ノイズの多い最適化問題である。
本稿では,ランダムなデータネットワーク上での分類課題の研究にLangevin dynamics法を用いる。
揺らぎから容易に低次元の次元が得られることが分かる。
解析的に抽出可能であり,観測された変動統計を再現する簡易な損失モデルにより,この挙動を説明する。
論文 参考訳(メタデータ) (2023-04-03T20:01:52Z) - Are Gradients on Graph Structure Reliable in Gray-box Attacks? [56.346504691615934]
従来のグレーボックス攻撃者は、グラフ構造を乱すために、サロゲートモデルからの勾配を用いて脆弱なエッジを見つける。
本稿では,構造勾配の不確実性に起因する誤差を考察し,解析する。
本稿では,構造勾配の誤差を低減する手法を用いた新しい攻撃モデルを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:43:32Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Learning High-Precision Bounding Box for Rotated Object Detection via
Kullback-Leibler Divergence [100.6913091147422]
既存の回転物体検出器は、主に水平検出パラダイムから受け継がれている。
本稿では,回転回帰損失の設計を帰納パラダイムから導出手法に変更することを目的としている。
論文 参考訳(メタデータ) (2021-06-03T14:29:19Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Expectigrad: Fast Stochastic Optimization with Robust Convergence
Properties [18.973116252065278]
そこで本稿では,数値と分母を連立して,すべての歴史的運動量項の成分ごとの非重み付き平均値に応じて調整を行う,期待段階という新しい手法を提案する。
我々は、Adam の発散を引き起こすことが知られている勾配最適化問題のすべての事例において、期待度が分岐できないことを証明した。
論文 参考訳(メタデータ) (2020-10-03T13:34:27Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。