論文の概要: Weak-SIGReg: Covariance Regularization for Stable Deep Learning
- arxiv url: http://arxiv.org/abs/2603.05924v1
- Date: Fri, 06 Mar 2026 05:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.108248
- Title: Weak-SIGReg: Covariance Regularization for Stable Deep Learning
- Title(参考訳): Weak-SIGReg: 安定したディープラーニングのための共分散正規化
- Authors: Habibullah Akbar,
- Abstract要約: この研究は、最近LeJEPAの自己教師型フレームワークで導入されたSketched Isotropic Gaussian Regularization (SIGReg)を採用し、教師付き学習のための一般的な最適化安定化器として再利用している。
SIGRegは表現密度を等方性ガウスに対して制限し、このドリフトを緩和する。
SIGRegはアーキテクチャハックなしで20.73%から72.02%の精度でCIFAR-100上でのViTトレーニングを回復し、純粋なSGDでトレーニングされた深いバニラの収束を大幅に改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural network optimization relies heavily on architectural priorssuch as Batch Normalization and Residual connectionsto stabilize training dynamics. Without these, or in low-data regimes with aggressive augmentation, low-bias architectures like Vision Transformers (ViTs) often suffer from optimization collapse. This work adopts Sketched Isotropic Gaussian Regularization (SIGReg), recently introduced in the LeJEPA self-supervised framework, and repurposes it as a general optimization stabilizer for supervised learning. While the original formulation targets the full characteristic function, a computationally efficient variant is derived, Weak-SIGReg, which targets the covariance matrix via random sketching. Inspired by interacting particle systems, representation collapse is viewed as stochastic drift; SIGReg constrains the representation density towards an isotropic Gaussian, mitigating this drift. Empirically, SIGReg recovers the training of a ViT on CIFAR-100 from a collapsed 20.73\% to 72.02\% accuracy without architectural hacks and significantly improves the convergence of deep vanilla MLPs trained with pure SGD. Code is available at \href{https://github.com/kreasof-ai/sigreg}{github.com/kreasof-ai/sigreg}.
- Abstract(参考訳): 現代のニューラルネットワーク最適化は、トレーニングダイナミクスを安定化させるために、バッチ正規化や残留接続のようなアーキテクチャ上の前提に大きく依存している。
これらがなければ、あるいはアグレッシブな拡張を伴う低データ体制では、ビジョントランスフォーマー(ViT)のような低バイアスアーキテクチャは最適化の崩壊に悩まされることが多い。
この研究は、最近LeJEPAの自己教師型フレームワークで導入されたSketched Isotropic Gaussian Regularization (SIGReg)を採用し、教師付き学習のための一般的な最適化安定化器として再利用している。
元の定式化は全特徴関数を対象とするが、計算効率のよい変種であるWeak-SIGRegはランダムスケッチにより共分散行列を対象とする。
相互作用する粒子系によって導かれ、表現崩壊は確率的ドリフトと見なされ、SIGRegは表現密度を等方的なガウスに向けて制限し、このドリフトを緩和する。
SIGRegはアーキテクチャハックなしで20.73\%から72.02\%の精度でCIFAR-100上のViTのトレーニングを回復し、純粋なSGDでトレーニングされたディープバニラMLPの収束を大幅に改善した。
コードは \href{https://github.com/kreasof-ai/sigreg}{github.com/kreasof-ai/sigreg} で公開されている。
関連論文リスト
- GENSR: Symbolic Regression Based in Equation Generative Space [15.186848349610363]
GenSRは、ジェネレーティブな宇宙ベースのSRフレームワークである。
ベイズの観点から、GenSR は SR タスクを条件分布 $p(mathrmEqu. mid mathrmNum.)$ の最大化として再構成する。
論文 参考訳(メタデータ) (2026-02-24T05:14:34Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Feedback Alignment Meets Low-Rank Manifolds: A Structured Recipe for Local Learning [7.034739490820967]
バックプロパゲーション(BP)を用いたディープニューラルネットワーク(DNN)のトレーニングは、最先端の精度を実現するが、大域的なエラー伝搬と完全なパラメータ化が必要である。
ダイレクトフィードバックアライメント(DFA)は、メモリ要件の低いローカルで並列化可能な更新を可能にする。
低ランク多様体上で直接動作する構造化局所学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:03:46Z) - Gaussian Primitive Optimized Deformable Retinal Image Registration [19.882820812725523]
変形性網膜画像登録は、大きな同種領域とスパースだが重要な血管的特徴のため、非常に困難である。
これらの課題を克服するために、構造化メッセージパッシングを実行する新しい反復的フレームワークを導入する。
FIREデータセットの実験では、GPOはターゲット登録エラーを6.2,pxから2.4,pxに減らし、AUCを0.770から0.938に増やしている。
論文 参考訳(メタデータ) (2025-08-23T00:44:50Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - ADC-GS: Anchor-Driven Deformable and Compressed Gaussian Splatting for Dynamic Scene Reconstruction [22.24139713363786]
既存の4Dガウス散乱法は、標準空間からターゲットフレームへのガウス毎の変形に依存している。
動的シーン再構成のためのコンパクトで効率的なADC-GSを提案する。
その結果, ADC-GS はレンダリング速度300%-800% でガウス変形法よりも優れていた。
論文 参考訳(メタデータ) (2025-05-13T03:13:40Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。