Fugu-MT 論文翻訳(概要): Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks

論文の概要: Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks

arxiv url: http://arxiv.org/abs/2405.15481v2
Date: Tue, 10 Jun 2025 15:04:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:38.4619
Title: Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks
Title（参考訳）: ユークリッドおよび双曲型ニューラルネットワークのスパーススペクトルトレーニングと推定
Authors: Jialin Zhao, Yingtao Zhang, Xinghang Li, Huaping Liu, Carlo Vittorio Cannistraci,
Abstract要約: Low-Rank Adaptation (LoRA) と ReLoRA は低ランク構造で課題に直面している。予備学習におけるメモリ使用量の最適化を目的としたスパーススペクトルトレーニング(SST)を提案する。 SSTは、他の低ランクメソッドとフルランクトレーニングの間の難易度ギャップを97.4%削減する。
参考スコア（独自算出の注目度）: 9.96381061452642
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The growing demands on GPU memory posed by the increasing number of neural network parameters call for training approaches that are more memory-efficient. Previous memory reduction training techniques, such as Low-Rank Adaptation (LoRA) and ReLoRA, face challenges, with LoRA being constrained by its low-rank structure, particularly during intensive tasks like pre-training, and ReLoRA suffering from saddle point issues. In this paper, we propose Sparse Spectral Training (SST) to optimize memory usage for pre-training. SST updates all singular values and selectively updates singular vectors through a multinomial sampling method weighted by the magnitude of the singular values. Furthermore, SST employs singular value decomposition to initialize and periodically reinitialize low-rank parameters, reducing distortion relative to full-rank training compared to other low-rank methods. Through comprehensive testing on both Euclidean and hyperbolic neural networks across various tasks, SST demonstrates its ability to outperform existing memory reduction training methods and is comparable to full-rank training in various cases. On LLaMA-1.3B, with only 18.7\% of the parameters trainable compared to full-rank training (using a rank equivalent to 6\% of the embedding dimension), SST reduces the perplexity gap between other low-rank methods and full-rank training by 97.4\%. This result highlights SST as an effective parameter-efficient technique for model pre-training.
Abstract（参考訳）: ニューラルネットワークパラメータの増加によって引き起こされるGPUメモリに対する需要の増加は、よりメモリ効率のよいトレーニングアプローチを求めている。 LoRA(Lo-Rank Adaptation)やReLoRA(ReLoRA)といった従来のメモリ削減トレーニングテクニックは、ローランク構造、特に事前トレーニングのような集中的なタスクや、サドルポイントの問題に苦しむReLoRAに制約されるという課題に直面している。本稿では,予備学習におけるメモリ使用量の最適化を目的としたスパーススペクトルトレーニング(SST)を提案する。 SSTは全ての特異値を更新し、特異値の大きさで重み付けされた多項サンプリング法により特異ベクトルを選択的に更新する。さらに、SSTは特異値分解を用いて、低ランクパラメータを初期化し、周期的に再起動し、他の低ランクメソッドと比較してフルランクトレーニングに対する歪みを低減する。さまざまなタスクにわたるユークリッドニューラルネットワークと双曲ニューラルネットワークの包括的なテストを通じて、SSTは、既存のメモリ削減トレーニング手法を上回り、さまざまなケースでフルランクトレーニングに匹敵する能力を示している。 LLaMA-1.3Bでは、フルランクのトレーニングに比べてトレーニング可能なパラメータの18.7\%(埋め込み次元の6\%に相当するランク)しかなく、SSTは他のローランクのメソッドとフルランクのトレーニングの間の複雑さのギャップを97.4\%削減している。この結果は,SSTをモデル事前学習の効果的なパラメータ効率向上手法として強調する。

関連論文リスト

An Augmented Backward-Corrected Projector Splitting Integrator for Dynamical Low-Rank Training [47.69709732622765]
必要なQR分解数を削減できる新しい低ランクトレーニング手法を提案する。提案手法は,プロジェクタ分割方式に拡張ステップを組み込むことにより,局所最適解への収束を確保する。
論文参考訳（メタデータ） (2025-02-05T09:03:50Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining [39.56934385513862]
大規模言語モデル(LLM)をゼロから訓練するには、計算能力と広範なメモリ容量が必要である。最近の研究では、パラメータとメモリの点で効率的な微調整のための重量の低ランク構造を探索している。本稿では,SLTrain と呼ばれる事前学習用低ランク行列とスパース行列の和として重みをパラメータ化することを提案する。
論文参考訳（メタデータ） (2024-06-04T11:14:21Z)
Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training [30.452060061499523]
本稿では、勾配推定における計算およびメモリ要求を軽減するために、LR法を近似する手法を提案する。ニューラルネットワークトレーニングにおける近似手法の有効性を実験により実証した。
論文参考訳（メタデータ） (2024-03-18T23:23:50Z)
PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs [22.557682089926004]
パラメータの小さなサブセットを更新すれば、刈り込み後の回復や性能向上に十分であることを示す。標準のLoRAとは異なり、スパシティを損なうことなくアダプタを再びマージできる2つの新しいLoRA変種を導入する。
論文参考訳（メタデータ） (2023-12-23T11:45:22Z)
Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文参考訳（メタデータ） (2023-02-28T05:01:01Z)
Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文参考訳（メタデータ） (2022-10-09T07:47:56Z)
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。 PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文参考訳（メタデータ） (2022-06-13T23:51:56Z)
Learning in Feedback-driven Recurrent Spiking Neural Networks using full-FORCE Training [4.124948554183487]
本稿では,トレーニング中にのみ第2のネットワークを導入するRSNNの教師付きトレーニング手順を提案する。提案したトレーニング手順は、リカレント層とリードアウト層の両方のターゲットを生成することで構成される。本研究では,8つの力学系をモデル化するためのフルFORCEトレーニング手法の性能向上とノイズ堅牢性を示す。
論文参考訳（メタデータ） (2022-05-26T19:01:19Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)
Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文参考訳（メタデータ） (2022-05-17T05:37:08Z)
Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文参考訳（メタデータ） (2021-06-08T09:57:20Z)
Do We Actually Need Dense Over-Parameterization? In-Time Over-Parameterization in Sparse Training [16.81321230135317]
スパーストレーニングにおけるITOP(In-Time Over-Resibilityization)の概念を提案する。 ITOPはスパーストレーニングと密集トレーニングのギャップを埋めます。本稿では,我々の予想を裏付け,最先端のスパーストレーニング性能を達成するための一連の実験について述べる。
論文参考訳（メタデータ） (2021-02-04T20:59:31Z)
Selfish Sparse RNN Training [13.165729746380816]
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
論文参考訳（メタデータ） (2021-01-22T10:45:40Z)
FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。 FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文参考訳（メタデータ） (2020-12-24T05:24:10Z)
Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文参考訳（メタデータ） (2020-08-28T04:29:54Z)
Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文参考訳（メタデータ） (2020-02-17T18:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。