Fugu-MT 論文翻訳(概要): Massive Redundancy in Gradient Transport Enables Sparse Online Learning

論文の概要: Massive Redundancy in Gradient Transport Enables Sparse Online Learning

arxiv url: http://arxiv.org/abs/2603.15195v1
Date: Mon, 16 Mar 2026 12:32:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:58.280888
Title: Massive Redundancy in Gradient Transport Enables Sparse Online Learning
Title（参考訳）: グラディエントトランスポートにおける大規模冗長性は, オンライン学習の疎化を可能にする
Authors: Aur Shalev Merin,
Abstract要約: リアルタイム反復学習は、ジャコビアンテンソルを前方に伝播させることにより、正確なオンライン勾配を計算する。連続誤差信号系では、リカレントジャコビアンは非常に冗長であり、ランダムな6%の経路を伝播する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-time recurrent learning (RTRL) computes exact online gradients by propagating a Jacobian tensor forward through recurrent dynamics, but at O(n^4) cost per step. Prior work has sought structured approximations (rank-1 compression, graph-based sparsity, Kronecker factorization). We show that, in the continuous error signal regime, the recurrent Jacobian is massively redundant:propagating through a random 6% of paths (k=4 of n=64) recovers 84 +/- 6% of full RTRL's adaptation ability across five seeds, and the absolute count k=4 remains effective from n=64 to n=256 (6% to 1.6%, recovery 84 to 78%), meaning sparse RTRL becomes relatively cheaper as networks grow. In RNNs, the recovery is selection-invariant (even adversarial path selection works) and exhibits a step-function transition from zero to any nonzero propagation. Spectral analysis reveals the mechanism: the Jacobian is full-rank but near-isotropic (condition numbers 2.6-6.5), so any random subset provides a directionally representative gradient estimate. On chaotic dynamics (Lorenz attractor), sparse propagation is more numerically stable than full RTRL (CV 13% vs. 88%), as subsampling avoids amplifying pathological spectral modes. The redundancy extends to LSTMs (k=4 matches full RTRL) and to transformers via sparse gradient transport (50% head sparsity outperforms the dense reference; 33% is borderline), with higher thresholds reflecting head specialization rather than isotropy. On real primate neural data, sparse RTRL (k=4) adapts online to cross-session electrode drift (80 +/- 11% recovery, 5 seeds), where sparse propagation is again more stable than full RTRL. Without continuous error signal, Jacobian propagation accumulates numerical drift and degrades all RTRL variants, a scope condition for all forward-mode methods. Results hold with SGD (92 +/- 1% recovery), suggesting independence from optimizer choice.
Abstract（参考訳）: リアルタイムリカレントラーニング(RTRL)は、ジャコビアンテンソルをリカレントダイナミクスによって前方に伝播することで、正確なオンライン勾配を計算するが、ステップ毎にO(n^4)コストがかかる。以前の研究は構造化近似(rank-1 圧縮、グラフベースの空間性、Kronecker factorization)を求めてきた。連続的エラー信号系では、リカレントジャコビアンは非常に冗長である:ランダムな経路の6%(k=4 of n=64)を伝播すると、84+/-6%のRTRL適応能が5つの種にわたって回復し、絶対的な数k=4は、n=64からn=256(6%から1.6%、リカバリ84～78%)まで有効であり、ネットワークの成長に伴って、スパースRTRLは比較的安価になる。 RNNでは、リカバリは選択不変(逆経路選択作業でさえ)であり、ゼロからゼロでない伝播へのステップ関数遷移を示す。ヤコビアン (Jacobian) はフルランクであるが、ほぼ等方性 (条件番号 2.6-6.5) であるため、任意のランダム部分集合は方向を代表する勾配推定を与える。カオス力学 (Lorenz attractor) では, スパース伝播はフルRTRL (CV 13% vs. 88%) よりも数値的に安定である。冗長性はLSTM(k=4はフルRTRLと一致する)やスパース勾配輸送によるトランスフォーマー(50%の頭部空間は密度の高い基準より優れ、33%は境界線である)にまで拡張され、高い閾値はアイソトロピーよりも頭部特殊化を反映している。真の霊長類の神経データでは、スパースRTRL (k=4) は、完全なRTRLよりもスパース伝播がより安定な、クロスセッション電極ドリフト (80 +/-11%リカバリ、5種) にオンラインで適応する。連続的なエラー信号がなければ、ジャコビアン伝播は数値的なドリフトを蓄積し、すべてのTRL変種を分解する。結果はSGD(92+/-1%のリカバリ)で維持され、オプティマイザの選択から独立することを示唆している。

関連論文リスト

Inverse Neural Operator for ODE Parameter Optimization [6.148294495010685]
Inverse Neural Operator (INO) は、疎部分的な観測から隠されたODEパラメータを復元するフレームワークである。 INOは0.23秒の推論時間しか必要とせず、パラメータ回復の精度で勾配ベースと償却ベースラインを上回ります。
論文参考訳（メタデータ） (2026-03-12T12:20:23Z)
MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。 MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文参考訳（メタデータ） (2025-11-26T06:14:26Z)
Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。 ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。 EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文参考訳（メタデータ） (2025-11-20T18:56:05Z)
Exploring Spiking Neural Networks for Binary Classification in Multivariate Time Series at the Edge [0.9282545044546486]
多変量時系列のバイナリ分類を行うために、スパイキングニューラルネットワーク(SNN)を訓練するための一般的なフレームワークを提案する。ガンマ線スペクトルデータにおける低信号-雑音比放射源の検出に応用する。その結果、49個の神経細胞と66個のシナプスを持つSNNは、51.8%の真の正の速度(TPR)を1/hrの誤報率で達成した。マイクロカスピアンニューロモルフィックプラットフォーム上のハードウェア展開は、2mWの消費電力と20.2msのレイテンシを示す。
論文参考訳（メタデータ） (2025-10-23T20:52:11Z)
Environment-Aware Indoor LoRaWAN Path Loss: Parametric Regression Comparisons, Shadow Fading, and Calibrated Fade Margins [3.776919981139063]
内部のLoRaWAN伝播は、構造的および時間的変化の文脈因子によって形成される。リークセーフなクロスバリデーションを用いて評価した,環境に配慮した統計的に規律のある経路損失フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-05T20:14:48Z)
Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文参考訳（メタデータ） (2025-05-08T17:58:45Z)
Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文参考訳（メタデータ） (2025-02-14T03:26:57Z)
On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文参考訳（メタデータ） (2025-01-28T00:29:38Z)
Convergence Analysis of Real-time Recurrent Learning (RTRL) for a class of Recurrent Neural Networks [0.0]
Real-time Recurrent Learning (RTRL) はオンライン最適化アルゴリズムである。これは、データシーケンス上の真の勾配損失を、シーケンスタイムステップの数として追従する。 RTRLの潜在的な応用分野の1つは、財務データの分析である。
論文参考訳（メタデータ） (2025-01-14T11:46:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。