論文の概要: BSFA: Leveraging the Subspace Dichotomy to Accelerate Neural Network Training
- arxiv url: http://arxiv.org/abs/2510.25244v1
- Date: Wed, 29 Oct 2025 07:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.208274
- Title: BSFA: Leveraging the Subspace Dichotomy to Accelerate Neural Network Training
- Title(参考訳): BSFA: サブスペース二分法を活用してニューラルネットワークトレーニングを加速する
- Authors: Wenjie Zhou, Bohan Wang, Wei Chen, Xueqi Cheng,
- Abstract要約: ディープラーニングのための新しいプラグアンドプレイフレームワークである textbfBulk-Space-Filtration-Accelerator (BSFA) を紹介する。
BSFAは異なる部分空間に投影された更新コンポーネントを差分スケーリングすることでトレーニングを加速する。
我々は,BSFAの加速度を様々なタスクで実証し,特に約2$times$ Speedupを実現した。
- 参考スコア(独自算出の注目度): 59.581876419579864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies \citep{gur2018gradient,song2024does, wen2024understanding} highlight a fundamental dichotomy in deep learning optimization: Although parameter updates along the top eigendirections of the loss Hessian (Dom-space) capture most of the update magnitude, they often contribute minimally to loss reduction. In contrast, updates in the orthogonal component (Bulk-space) have smaller magnitudes but drive most learning progress. In this work, we further advance the understanding of this phenomenon and introduce the \textbf{Bulk-Space-Filtration-Accelerator (BSFA)}, a novel plug-and-play framework. BSFA accelerates training by differentially scaling update components projected onto these distinct subspaces, simultaneously enhancing stability by moderating updates in the dominant subspace and boosting convergence speed by amplifying those in the bulk-space. To ensure BSFA is both practical and scalable for contemporary large models, we introduce two key innovations: an efficient estimator using Principal Component Analysis (PCA) on historical updates for fast subspace estimation, and a block-wise strategy that applies this estimation on a per-parameter-block basis. These designs make BSFA computationally tractable and highly effective. We demonstrate BSFA's acceleration across various tasks, notably achieving approximately 2$\times$ speedup when pre-training LLaMA-72M on WikiText-103 and LLaMA-134M on OpenWebText compared to vanilla AdamW.
- Abstract(参考訳): 最近の研究では、ディープラーニング最適化の基本的な二分法が強調されている。 ロスヘッセン(Dom-space)の上位固有方向に沿ったパラメータ更新は、ほとんどの更新マグニチュードをキャプチャするが、損失削減に最小限に寄与することが多い。
対照的に、直交成分(バルク空間)の更新は大きさが小さいが、ほとんどの学習が進行する。
本研究では,この現象の理解を深め,新しいプラグイン・アンド・プレイフレームワークである「textbf{Bulk-Space-Filtration-Accelerator (BSFA)」を導入する。
BSFAは、これらの異なる部分空間に投影される更新コンポーネントを差分スケーリングすることでトレーニングを加速し、支配的部分空間の更新を調整し、バルク空間の更新を増幅することで収束速度を高めることにより安定性を同時に向上する。
BSFAが現代大規模モデルにとって実用的かつスケーラブルであることを保証するため、高速な部分空間推定のための履歴更新に主成分分析(PCA)を用いた効率的な推定器と、この推定をパラメータ単位のブロック単位で適用するブロックワイズ戦略の2つの重要な革新を導入する。
これらの設計により、BSFAは計算可能で、非常に効果的である。
WikiText-103でLLaMA-72M、OpenWebTextでLLaMA-134M、バニラAdamWでLLaMA-134Mを事前学習すると、BSFAの加速が約2$\times$のスピードアップを達成することを示す。
関連論文リスト
- Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.7618807098457]
大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。
本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。
構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:57:08Z) - TSPulse: Dual Space Tiny Pre-Trained Models for Rapid Time-Series Analysis [12.034816114258803]
TSPulseは、1Mパラメータしか持たない超コンパクトな時系列事前訓練モデルである。
分類、異常検出、インプット、検索タスクで強く機能する。
結果は100Mパラメータ(既存のSOTAモデルより10-100倍小さい)で達成される。
論文 参考訳(メタデータ) (2025-05-19T12:18:53Z) - Function-Space Learning Rates [23.09717258810923]
任意のニューラルネットワークにおける関数空間学習率を計測・設定する効率的な手法を開発した。
1) パラメータ空間ではなく関数空間における標準ニューラルネットワークオプティマイザのダイナミクスを分析する。
論文 参考訳(メタデータ) (2025-02-24T18:31:58Z) - SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs [4.194295877935867]
大規模言語モデル(LLM)のための軽量連続学習フレームワークを提案する。
本手法はタスク・インクリメンタル・ドメイン・インクリメンタル・ラーニング・セットアップにおいて高い知識保持を実現する。
SuperGLUEベンチマークの実験では、PCAベースのプロンプトチューニングとLoRAが組み合わさって、完全知識保持を維持しながら精度を向上し、モデルのパラメータの1%しか利用していないことが示されている。
論文 参考訳(メタデータ) (2025-02-05T06:11:55Z) - Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。
我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。
実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文 参考訳(メタデータ) (2024-01-17T13:04:14Z) - Federated Learning over Hierarchical Wireless Networks: Training Latency Minimization via Submodel Partitioning [15.311309249848739]
階層型独立サブモデルトレーニング(Hierarchical independent submodel training、HIST)は、階層型クラウド-エッジ-クライアントネットワークにおけるこれらの問題に対処することを目的とした新しいFL方法論である。
本研究では,HISTを空気上計算(AirComp)で拡張することにより,エッジセル上でのモデルアグリゲーションの効率をより高めることができることを示す。
論文 参考訳(メタデータ) (2023-10-27T04:42:59Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。