論文の概要: Randomized Matrix Sketching for Neural Network Training and Gradient Monitoring
- arxiv url: http://arxiv.org/abs/2510.00442v1
- Date: Wed, 01 Oct 2025 02:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.338583
- Title: Randomized Matrix Sketching for Neural Network Training and Gradient Monitoring
- Title(参考訳): ニューラルネットワークトレーニングとグラディエントモニタリングのためのランダムマトリックススケッチ
- Authors: Harbir Antil, Deepanshu Verma,
- Abstract要約: 本稿では,ニューラルネットワーク層活性化に対する制御理論的行列スケッチの初回適応について述べる。
スケッチされたアクティベーションストレージが、メモリ効率のよいニューラルネットワークのトレーニングと分析にどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network training relies on gradient computation through backpropagation, yet memory requirements for storing layer activations present significant scalability challenges. We present the first adaptation of control-theoretic matrix sketching to neural network layer activations, enabling memory-efficient gradient reconstruction in backpropagation. This work builds on recent matrix sketching frameworks for dynamic optimization problems, where similar state trajectory storage challenges motivate sketching techniques. Our approach sketches layer activations using three complementary sketch matrices maintained through exponential moving averages (EMA) with adaptive rank adjustment, automatically balancing memory efficiency against approximation quality. Empirical evaluation on MNIST, CIFAR-10, and physics-informed neural networks demonstrates a controllable accuracy-memory tradeoff. We demonstrate a gradient monitoring application on MNIST showing how sketched activations enable real-time gradient norm tracking with minimal memory overhead. These results establish that sketched activation storage provides a viable path toward memory-efficient neural network training and analysis.
- Abstract(参考訳): ニューラルネットワークのトレーニングは、バックプロパゲーションによる勾配計算に依存するが、レイヤアクティベーションを格納するためのメモリ要件は、大きなスケーラビリティ上の課題を示している。
本稿では、制御理論行列のスケッチをニューラルネットワーク層活性化に適応させ、バックプロパゲーションにおけるメモリ効率の高い勾配再構成を可能にする。
この研究は、動的最適化問題に対する最近のマトリックススケッチフレームワークの上に構築され、同様の状態軌跡ストレージの課題がスケッチ技法を動機付けている。
提案手法は,適応的なランク調整による指数移動平均(EMA)によって維持される3つの相補的スケッチ行列を用いて,レイヤの活性化をスケッチする。
MNIST、CIFAR-10、物理インフォームドニューラルネットワークに関する実証的な評価は、制御可能な精度-メモリトレードオフを示している。
本稿では,MNIST上の勾配監視アプリケーションを用いて,メモリオーバーヘッドを最小限に抑えたリアルタイム勾配ノルムトラッキングを実現する方法を示す。
これらの結果は、スケッチされたアクティベーションストレージが、メモリ効率の高いニューラルネットワークのトレーニングと分析へ実行可能なパスを提供することを証明している。
関連論文リスト
- Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - Low-memory stochastic backpropagation with multi-channel randomized
trace estimation [6.985273194899884]
ニューラルネットワークにおける畳み込み層の勾配を多チャンネルランダム化トレース推定手法を用いて近似する。
他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。
本稿では、バックプロパゲーションでトレーニングしたネットワークの性能と、メモリ使用量の最大化と計算オーバーヘッドの最小化を図りながら、エラーを制御する方法について論じる。
論文 参考訳(メタデータ) (2021-06-13T13:54:02Z) - Gradient Projection Memory for Continual Learning [5.43185002439223]
過去のタスクを忘れずに継続的に学習する能力は、人工学習システムにとって望ましい属性です。
ニューラルネットワークは,従来のタスクにとって重要と考えられる勾配部分空間に直交方向の勾配を向けることで,新しいタスクを学習する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:31:29Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - On-Chip Error-triggered Learning of Multi-layer Memristive Spiking
Neural Networks [1.7958576850695402]
オンライン3次重み更新を用いた局所的,勾配に基づく,エラートリガー付き学習アルゴリズムを提案する。
提案アルゴリズムは,多層SNNを記憶型ニューロモルフィックハードウェアでオンライントレーニングすることを可能にする。
論文 参考訳(メタデータ) (2020-11-21T19:44:19Z) - Stochastic Markov Gradient Descent and Training Low-Bit Neural Networks [77.34726150561087]
本稿では,量子化ニューラルネットワークのトレーニングに適用可能な離散最適化手法であるGradient Markov Descent (SMGD)を紹介する。
アルゴリズム性能の理論的保証と数値的な結果の促進を提供する。
論文 参考訳(メタデータ) (2020-08-25T15:48:15Z) - Neuromodulated Neural Architectures with Local Error Signals for
Memory-Constrained Online Continual Learning [4.2903672492917755]
我々は,局所学習とニューロ変調を取り入れた,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。
一つの課題と連続的な学習環境の両方にアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-16T07:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。