論文の概要: Moonwalk: Inverse-Forward Differentiation
- arxiv url: http://arxiv.org/abs/2402.14212v1
- Date: Thu, 22 Feb 2024 01:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:39:54.007234
- Title: Moonwalk: Inverse-Forward Differentiation
- Title(参考訳): ムーンウォーク:逆方向の差異
- Authors: Dmitrii Krylov, Armin Karamzade, Roy Fox
- Abstract要約: フォワードモード勾配計算は、可逆ネットワークにおいて代替となる。
ムーンウォークは、バックプロパゲーションに匹敵する計算時間における可逆的ネットワークの真の勾配を計算する最初のフォワードベースの方法である。
- 参考スコア(独自算出の注目度): 4.425689868461635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backpropagation, while effective for gradient computation, falls short in
addressing memory consumption, limiting scalability. This work explores
forward-mode gradient computation as an alternative in invertible networks,
showing its potential to reduce the memory footprint without substantial
drawbacks. We introduce a novel technique based on a vector-inverse-Jacobian
product that accelerates the computation of forward gradients while retaining
the advantages of memory reduction and preserving the fidelity of true
gradients. Our method, Moonwalk, has a time complexity linear in the depth of
the network, unlike the quadratic time complexity of na\"ive forward, and
empirically reduces computation time by several orders of magnitude without
allocating more memory. We further accelerate Moonwalk by combining it with
reverse-mode differentiation to achieve time complexity comparable with
backpropagation while maintaining a much smaller memory footprint. Finally, we
showcase the robustness of our method across several architecture choices.
Moonwalk is the first forward-based method to compute true gradients in
invertible networks in computation time comparable to backpropagation and using
significantly less memory.
- Abstract(参考訳): バックプロパゲーションは勾配計算に有効だが、メモリ消費に対処するには不十分であり、スケーラビリティが制限される。
この研究は、非可逆ネットワークの代替としてフォワードモード勾配計算を探求し、大きな欠点なくメモリフットプリントを削減する可能性を示している。
本稿では,ベクトル逆ヤコビアン積に基づく新しい手法を提案する。これは,メモリ削減の利点を維持しつつ,真の勾配の忠実さを保ったまま,前方勾配の計算を高速化する。
我々の方法であるMoonwalkは、na\の2次時間複雑性とは異なり、ネットワークの深さで線形な時間複雑性を持ち、より多くのメモリを割り当てることなく、数桁の計算時間を経験的に削減する。
さらに,メモリフットプリントを小さく保ちながら,バックプロパゲーションに匹敵する時間複雑性を達成するために,逆モード微分と組み合わせることで,ムーンウォークをさらに加速する。
最後に、いくつかのアーキテクチャ選択にまたがる手法の堅牢性を示す。
ムーンウォーク(moonwalk)は、バックプロパゲーションに匹敵する計算時間で可逆ネットワークの真の勾配を計算する最初のフォワードベース手法である。
関連論文リスト
- Inverted Activations: Reducing Memory Footprint in Neural Network Training [5.070981175240306]
ニューラルネットワークトレーニングにおける重要な課題は、アクティベーションテンソルに関連するメモリフットプリントである。
本稿では, 点方向非線形層におけるアクティベーションテンソルの取扱いの修正を提案する。
本手法は,トレーニング精度や計算性能に影響を与えることなく,メモリ使用量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-07-22T11:11:17Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Nonsmooth automatic differentiation: a cheap gradient principle and
other complexity results [0.0]
我々は,多種多様な非滑らかなプログラムに対して,アルゴリズム微分の後方モードと前方モードの計算コストを推定するモデルを提供する。
有名な例として、有名なreluと畳み込みニューラルネットワークとその標準損失関数がある。
論文 参考訳(メタデータ) (2022-06-01T08:43:35Z) - Few-Bit Backward: Quantized Gradients of Activation Functions for Memory
Footprint Reduction [4.243810214656324]
メモリフットプリントは、大規模なニューラルネットワークトレーニングの主要な制限要因のひとつだ。
本稿では, 点次非線形関数の残留勾配の最適量子化を計算するための体系的手法を提案する。
このような近似は、活性化関数の微分の最適一貫した近似を計算することで実現できることを示す。
論文 参考訳(メタデータ) (2022-02-01T14:51:38Z) - Efficient Neural Network Training via Forward and Backward Propagation
Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。
私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文 参考訳(メタデータ) (2021-11-10T13:49:47Z) - Low-memory stochastic backpropagation with multi-channel randomized
trace estimation [6.985273194899884]
ニューラルネットワークにおける畳み込み層の勾配を多チャンネルランダム化トレース推定手法を用いて近似する。
他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。
本稿では、バックプロパゲーションでトレーニングしたネットワークの性能と、メモリ使用量の最大化と計算オーバーヘッドの最小化を図りながら、エラーを制御する方法について論じる。
論文 参考訳(メタデータ) (2021-06-13T13:54:02Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。