論文の概要: Predictable Gradient Manifolds in Deep Learning: Temporal Path-Length and Intrinsic Rank as a Complexity Regime
- arxiv url: http://arxiv.org/abs/2601.04270v1
- Date: Wed, 07 Jan 2026 11:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.847047
- Title: Predictable Gradient Manifolds in Deep Learning: Temporal Path-Length and Intrinsic Rank as a Complexity Regime
- Title(参考訳): 深層学習における予測可能なグラディエントマニフォールド--時間的パス長と内在的ランクを複雑度レジームとして
- Authors: Anherutowa Calvo,
- Abstract要約: 経験的に、訓練軌道に沿って、しばしば時間的に予測可能であり、低次元の部分空間内で進化する。
我々は、予測可能な次元勾配の測定可能なフレームワークを通して、この観測を定式化する。
本稿では,適応勾配,ランク認識追跡,および実トレーニング実行の計測可能な特性に基づく予測に基づく設計について紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning optimization exhibits structure that is not captured by worst-case gradient bounds. Empirically, gradients along training trajectories are often temporally predictable and evolve within a low-dimensional subspace. In this work we formalize this observation through a measurable framework for predictable gradient manifolds. We introduce two computable quantities: a prediction-based path length that measures how well gradients can be forecast from past information, and a predictable rank that quantifies the intrinsic temporal dimension of gradient increments. We show how classical online and nonconvex optimization guarantees can be restated so that convergence and regret depend explicitly on these quantities, rather than on worst-case variation. Across convolutional networks, vision transformers, language models, and synthetic control tasks, we find that gradient trajectories are locally predictable and exhibit strong low-rank structure over time. These properties are stable across architectures and optimizers, and can be diagnosed directly from logged gradients using lightweight random projections. Our results provide a unifying lens for understanding optimization dynamics in modern deep learning, reframing standard training as operating in a low-complexity temporal regime. This perspective suggests new directions for adaptive optimizers, rank-aware tracking, and prediction-based algorithm design grounded in measurable properties of real training runs.
- Abstract(参考訳): ディープラーニング最適化は、最悪の勾配境界で捉えられない構造を示す。
経験的に、訓練軌道に沿った勾配はしばしば時間的に予測可能であり、低次元の部分空間内で進化する。
本研究では、この観測を予測可能な勾配多様体の可測なフレームワークを通して定式化する。
本稿では,過去の情報からグラデーションをどれだけよく予測できるかを推定する予測ベースパス長と,勾配インクリメントの内在時間次元を定量化する予測可能なランクという2つの計算可能な量を紹介する。
コンバージェンスと後悔が最悪の場合の変動ではなく、これらの量に明示的に依存するように、古典的なオンラインおよび非凸最適化がいかに保証されるかを示す。
畳み込みネットワーク、視覚変換器、言語モデル、および合成制御タスク全体で、勾配軌道は局所的に予測可能であり、時間とともに強い低ランク構造を示す。
これらの特性はアーキテクチャやオプティマイザ間で安定であり、軽量なランダムプロジェクションを用いてログ付き勾配から直接診断することができる。
この結果から,現代深層学習における最適化のダイナミクスを理解するための統一レンズが提供され,低複雑さの時間的状態下での標準トレーニングが実現された。
この視点は、適応オプティマイザ、ランク認識トラッキング、および実際のトレーニング実行の可測性に基づく予測に基づくアルゴリズム設計のための新しい方向を示唆している。
関連論文リスト
- Accelerated Training through Iterative Gradient Propagation Along the Residual Path [46.577761606415805]
ハイウェイバックプロパゲーションは、バックプロパゲーションを近似する並列化可能な反復アルゴリズムである。
ResNetやTransformerから、リカレントニューラルネットワークまで、さまざまな共通アーキテクチャセットに適応可能である。
論文 参考訳(メタデータ) (2025-01-28T17:14:42Z) - Curvature in the Looking-Glass: Optimal Methods to Exploit Curvature of Expectation in the Loss Landscape [41.94295877935867]
我々は,多くの整列線形単位を持つアーキテクチャにおいて,期待される損失変化の曲率がどのように現れるかを理解するための新しい概念的枠組みを提案する。
我々の導出は、これらの不連続性がどのようにガラスのような構造を形成するかを示しており、これは強いがランダムな原子配列の微視的な領域を含む非晶質固体と類似している。
ガラスとヘッセンの項とネステロフ加速勾配更新で可能な特定の精度特性を組み込んだ準ニュートンステップの最適修正を導出する。
論文 参考訳(メタデータ) (2024-11-25T20:32:57Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。