論文の概要: Flexible and Efficient Surrogate Gradient Modeling with Forward Gradient Injection
- arxiv url: http://arxiv.org/abs/2406.00177v1
- Date: Fri, 31 May 2024 20:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:23:47.935369
- Title: Flexible and Efficient Surrogate Gradient Modeling with Forward Gradient Injection
- Title(参考訳): 前向きグラディエント注入によるフレキシブル・高効率サロゲートグラディエントモデリング
- Authors: Sebastian Otte,
- Abstract要約: 例えば、PyTorchは、後方メソッドをオーバーライドすることで、オペレーションの後方パスのカスタム仕様を可能にする。
これらのメソッドは一般的なプラクティスであり、通常はうまく動作しますが、柔軟性の制限、ソースコードのオーバーヘッドの追加、ユーザビリティの低下、自動モデル最適化手順の有効性に対する潜在的にネガティブな影響など、いくつかの欠点があります。
本稿では、代理勾配を定式化する別の方法、すなわちフォワード勾配注入(FGI)を示す。
- 参考スコア(独自算出の注目度): 2.0577627277681887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic differentiation is a key feature of present deep learning frameworks. Moreover, they typically provide various ways to specify custom gradients within the computation graph, which is of particular importance for defining surrogate gradients in the realms of non-differentiable operations such as the Heaviside function in spiking neural networks (SNNs). PyTorch, for example, allows the custom specification of the backward pass of an operation by overriding its backward method. Other frameworks provide comparable options. While these methods are common practice and usually work well, they also have several disadvantages such as limited flexibility, additional source code overhead, poor usability, or a potentially strong negative impact on the effectiveness of automatic model optimization procedures. In this paper, an alternative way to formulate surrogate gradients is presented, namely, forward gradient injection (FGI). FGI applies a simple but effective combination of basic standard operations to inject an arbitrary gradient shape into the computational graph directly within the forward pass. It is demonstrated that using FGI is straightforward and convenient. Moreover, it is shown that FGI can significantly increase the model performance in comparison to custom backward methods in SNNs when using TorchScript. These results are complemented with a general performance study on recurrent SNNs with TorchScript and torch.compile, revealing the potential for a training speedup of more than 7x and an inference speedup of more than 16x in comparison with pure PyTorch.
- Abstract(参考訳): 自動微分は、現在のディープラーニングフレームワークの重要な特徴である。
さらに、それらは一般に、スパイキングニューラルネットワーク(SNN)におけるHeaviside関数のような微分不可能な操作の領域における代理勾配を定義するために特に重要である計算グラフ内のカスタム勾配を指定するための様々な方法を提供する。
例えば、PyTorchは、後方メソッドをオーバーライドすることで、オペレーションの後方パスのカスタム仕様を可能にする。
他のフレームワークは同等の選択肢を提供する。
これらのメソッドは一般的なプラクティスであり、通常はうまく動作しますが、柔軟性の制限、ソースコードのオーバーヘッドの追加、ユーザビリティの低下、自動モデル最適化手順の有効性に対する潜在的にネガティブな影響など、いくつかの欠点があります。
本稿では, 代理勾配を定式化する方法として, フォワード勾配注入(FGI)を提案する。
FGIは、基本的な標準演算の単純かつ効果的な組み合わせを適用して、任意の勾配形状を前方パス内で直接計算グラフに注入する。
FGIの使用は簡単で便利である。
さらに、FGIはTorchScriptを使用する場合のSNNのカスタムバックワードメソッドと比較して、モデル性能を著しく向上させることができることを示した。
これらの結果は、TorchScript と torch.compile による繰り返し SNN の一般的な性能調査と補完され、トレーニングのスピードアップが7倍以上、推論のスピードアップが16倍以上になる可能性を明らかにした。
関連論文リスト
- Deep Implicit Optimization for Robust and Flexible Image Registration [20.34181966545357]
ディープネットワークの層として最適化を取り入れることで,古典的手法と学習的手法のギャップを埋める。
繰り返し最適化によるエンド・ツー・エンドの識別を暗黙的に行うことで、学習した特徴は登録とラベル認識である。
我々のフレームワークは、ドメイン内のデータセットで優れたパフォーマンスを示し、ドメインシフトに依存しない。
論文 参考訳(メタデータ) (2024-06-11T15:28:48Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Zero Grads: Learning Local Surrogate Losses for Non-Differentiable Graphics [13.558059987555234]
未定義あるいはゼロの勾配に対して、グラフィックを自動的に最適化する方法を示す。
このフィッティングはパラメータ最適化とともにオンラインで行われ、事前計算されたデータや事前訓練されたモデルなしで自己教師される。
他のアルゴリズムとは対照的に、我々のアプローチはより高次元にスケールし、最大35k変数の問題を実演する。
論文 参考訳(メタデータ) (2023-08-10T17:57:22Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - GuideBP: Guiding Backpropagation Through Weaker Pathways of Parallel
Logits [6.764324841419295]
提案手法は、最も弱い概念表現に沿ったバックプロパゲーションの勾配を導く。
弱点スコアは、ロジットの作成に使用される個々の経路のクラス固有のパフォーマンスを定義する。
提案手法は従来のカラムマージ手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2021-04-23T14:14:00Z) - Population Gradients improve performance across data-sets and
architectures in object classification [6.17047113475566]
ニューラルネットワーク(NN)の学習中に勾配を計算する新しい手法を提案する。
アーキテクチャ、データセット、ハイパーパラメータ値、トレーニング長、モデルサイズにわたる最終的なパフォーマンスを大幅に改善する。
私たちがテストした広範囲な状況において有効であるのに加えて、パフォーマンスの向上(例えば、F1)は他の広範なパフォーマンス改善手法のどれよりも高いか高いかのどちらかです。
論文 参考訳(メタデータ) (2020-10-23T09:40:23Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。