論文の概要: Temporal Credit Is Free
- arxiv url: http://arxiv.org/abs/2603.28750v1
- Date: Mon, 30 Mar 2026 17:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.553386
- Title: Temporal Credit Is Free
- Title(参考訳): 一時的なクレジットは無料
- Authors: Aur Shalev Merin,
- Abstract要約: リカレントネットワークは、オンラインで適応するためにジャコビアン伝播を必要としない。
beta2は、勾配が出力バイパスなしで非線形状態更新を通らなければならない場合に必要である。
10のアーキテクチャ、真のプリミレートニューラルネットワーク、ストリーミングMLベンチマーク、RMSpropとの即時微分は完全なRTRLと一致し、1000倍のメモリでn = 1024にスケールする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent networks do not need Jacobian propagation to adapt online. The hidden state already carries temporal credit through the forward pass; immediate derivatives suffice if you stop corrupting them with stale trace memory and normalize gradient scales across parameter groups. An architectural rule predicts when normalization is needed: \b{eta}2 is required when gradients must pass through a nonlinear state update with no output bypass, and unnecessary otherwise. Across ten architectures, real primate neural data, and streaming ML benchmarks, immediate derivatives with RMSprop match or exceed full RTRL, scaling to n = 1024 at 1000x less memory.
- Abstract(参考訳): リカレントネットワークは、オンラインで適応するためにジャコビアン伝播を必要としない。
隠れた状態は、フォワードパスを介して時間的信用をすでに持っています。
b{eta}2 は、勾配が出力バイパスなしで非線形状態更新を通過しなければならないときに必要である。
10のアーキテクチャ、真のプリミレートニューラルネットワーク、ストリーミングMLベンチマーク、RMSpropとの即時微分は完全なRTRLと一致し、1000倍のメモリでn = 1024にスケールする。
関連論文リスト
- Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization [0.0]
FLOPとGPUメモリにおけるRNNのスケール定数は、コンテキスト長が増加する。
変換器はFLOPで線形に、そしてせいぜい、生成中のメモリで線形にスケールする。
標準最適化手法は時間によるバックプロパゲーションに依存しているため、長い文脈での大規模RNNの訓練は実用的ではない。
論文 参考訳(メタデータ) (2025-05-23T13:04:06Z) - LipKernel: Lipschitz-Bounded Convolutional Neural Networks via Dissipative Layers [0.0468732641979009]
本稿では,畳み込みニューラルネットワーク(CNN)の階層的パラメータ化を提案する。
提案手法は,2次元ロエサー型状態空間モデルを用いて,散逸型畳み込みカーネルを直接パラメータ化する。
提案手法を用いた実行時間は,最先端のリプシッツ有界ネットワークよりも桁違いに高速であることを示す。
論文 参考訳(メタデータ) (2024-10-29T17:20:14Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - Matrix Completion via Nonsmooth Regularization of Fully Connected Neural Networks [7.349727826230864]
ディープニューラルネットワークのような非線形推定器を使うことで、性能の向上が達成できることが示されている。
本稿では,標準中間表現の観点から,FCNNモデルの正規化によるオーバーフィット制御を行う。
本シミュレーションは,既存の線形および非線形アルゴリズムと比較して,提案アルゴリズムの優位性を示す。
論文 参考訳(メタデータ) (2024-03-15T12:00:37Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Skew Orthogonal Convolutions [44.053067014796596]
Lipschitzの制約付き畳み込みニューラルネットワークを$l_2$ノルムでトレーニングすることは、証明可能な対逆ロバスト性、解釈可能な勾配、安定したトレーニングなどに有用である。
Methodabvは、従来の作業よりもはるかに高速な大きな畳み込みニューラルネットワークであるLipschitzのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-05-24T17:11:44Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。