論文の概要: BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"
- arxiv url: http://arxiv.org/abs/2604.16324v1
- Date: Thu, 05 Mar 2026 20:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.888456
- Title: BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"
- Title(参考訳): BASIS:"ゴーストバックプロパゲーション"のための不変スケーラとのバランスの取れたアクティベーションスケッチ
- Authors: Vladimer Khasia,
- Abstract要約: 正確なバックプロパゲーションに必要な活性化メモリは、ネットワーク深さ、コンテキスト長、特徴次元と線形にスケールする。
本稿では,活性化メモリをバッチ次元とシーケンス次元から完全に分離する効率的なバックプロパゲーションアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The activation memory required for exact backpropagation scales linearly with network depth, context length, and feature dimensionality, forming an O(L * BN ) spatial bottleneck (where B is the sequence-batch cardinality and N is the feature dimension). This constraint historically throttles the scaling of deep neural networks. While randomized automatic differentiation attempts to mitigate this, it historically suffers from catastrophic variance. In this paper, we introduce BASIS (Balanced Activation Sketching with Invariant Scalars), an efficient backpropagation algorithm that fully decouples activation memory from the batch and sequence dimensions. BASIS propagates the exact error signal (dX) to preserve flawless gradient flow, but computes the weight updates (dW) using massively compressed rank-R tensors. To solve the foundational instability of sketched gradients, we propose two novel mechanisms: Balanced Hashing, which strictly eliminates off-diagonal collision variance, and Invariant Scalars, a principled bias-variance tradeoff that deterministically preserves the exact continuous energy norm of the spatial geometry. Theoretically, BASIS reduces activation memory to O(L * RN ) and heavily decreases the backward pass matrix-multiplication footprint. Empirically, training a GPT architecture for 50,000 steps validates our theoretical guarantees: at R = 32, BASIS achieves parity with (and marginally outperforms) exact backpropagation validation loss (6.575 vs. 6.616), acting as an implicit regularizer. Remarkably, the stabilized magnitude trajectory allows the model to converge smoothly even under extreme spatial compression (R = 1), proving the extreme robustness of the estimator. The code is available at https://github.com/VladimerKhasia/basis
- Abstract(参考訳): 正確なバックプロパゲーションに必要なアクティベーションメモリは、ネットワーク深さ、コンテキスト長、特徴次元と線形にスケールし、O(L * BN)空間ボトルネックを形成する(Bはシーケンスバッチ濃度、Nは特徴次元)。
この制約は、歴史的にディープニューラルネットワークのスケーリングを妨げている。
ランダム化された自動微分は、これを緩和しようとするが、歴史的に破滅的な分散に悩まされている。
本稿では、バッチとシーケンス次元からアクティベーションメモリを完全に分離する効率的なバックプロパゲーションアルゴリズムであるBASIS(Balanced Activation Sketching with Invariant Scalars)を紹介する。
BASISは、正確なエラー信号(dX)を伝播して、欠陥のない勾配流を保存するが、巨大な圧縮されたランクRテンソルを用いて重み更新(dW)を計算する。
スケッチされた勾配の基本的な不安定性を解決するために、対角線外衝突の分散を厳密に排除するバランスド・ハッシュと、空間幾何学の正確な連続エネルギーノルムを決定論的に保存する原理的バイアス分散トレードオフである不変スカラーズという2つの新しいメカニズムを提案する。
理論的には、BASISは活性化メモリをO(L * RN )に還元し、後方通過行列-乗算フットプリントを著しく減少させる。
R = 32 では、BASIS は正確なバックプロパゲーション検証損失 (6.575 vs. 6.616) と同等(および限界的に優れる)に達し、暗黙の正則化として機能する。
注目すべきは、安定度軌跡により、モデルが極端空間圧縮(R = 1)の下でも滑らかに収束し、推定器の極端な堅牢性を証明することである。
コードはhttps://github.com/VladimerKhasia/basisで公開されている。
関連論文リスト
- Conservation Law Breaking at the Edge of Stability: A Spectral Theory of Non-Convex Neural Network Optimization [0.0]
非次元ネットワーク最適化において、勾配勾配勾配が確実に良い解となることを示す。
幅依存性の動的遷移によって分離された2つの規則を同定する。
全ての予測は23の実験で検証される。
論文 参考訳(メタデータ) (2026-04-08T10:41:24Z) - HoloByte: Continuous Hyperspherical Distillation for Tokenizer-Free Modeling [0.0]
TextbfHoloByte: 連続超球形蒸留を利用した厳密なトークンフリーフレームワークを紹介する。
ホロバイトは離散バイト列を固定容量チャンクに分割し、連続で厳密な有界超球面多様体に射影する。
これらの結果から, 連続超球形蒸留は語彙内配列モデリングの数学的に厳密で, 計算学的に抽出可能な基礎として確立された。
論文 参考訳(メタデータ) (2026-03-10T20:35:36Z) - RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。
本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。
RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文 参考訳(メタデータ) (2026-02-05T06:41:11Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Skew Orthogonal Convolutions [44.053067014796596]
Lipschitzの制約付き畳み込みニューラルネットワークを$l_2$ノルムでトレーニングすることは、証明可能な対逆ロバスト性、解釈可能な勾配、安定したトレーニングなどに有用である。
Methodabvは、従来の作業よりもはるかに高速な大きな畳み込みニューラルネットワークであるLipschitzのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-05-24T17:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。