論文の概要: Scaling Private Deep Learning with Low-Rank and Sparse Gradients
- arxiv url: http://arxiv.org/abs/2207.02699v1
- Date: Wed, 6 Jul 2022 14:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 17:53:35.405572
- Title: Scaling Private Deep Learning with Low-Rank and Sparse Gradients
- Title(参考訳): 低ランクとスパース勾配によるプライベートディープラーニングのスケーリング
- Authors: Ryuichi Ito, Seng Pei Liew, Tsubasa Takahashi, Yuya Sasaki, Makoto
Onizuka
- Abstract要約: ニューラルネットワークの低ランクかつスパースな構造を利用して、勾配更新の次元を小さくするフレームワークを提案する。
勾配を拡大するために新しい戦略が利用され、低次元でノイズの少ない更新をもたらす。
自然言語処理とコンピュータビジョンタスクの実証評価により,本手法が他の最先端のベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 5.14780936727027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applying Differentially Private Stochastic Gradient Descent (DPSGD) to
training modern, large-scale neural networks such as transformer-based models
is a challenging task, as the magnitude of noise added to the gradients at each
iteration scales with model dimension, hindering the learning capability
significantly. We propose a unified framework, $\textsf{LSG}$, that fully
exploits the low-rank and sparse structure of neural networks to reduce the
dimension of gradient updates, and hence alleviate the negative impacts of
DPSGD. The gradient updates are first approximated with a pair of low-rank
matrices. Then, a novel strategy is utilized to sparsify the gradients,
resulting in low-dimensional, less noisy updates that are yet capable of
retaining the performance of neural networks. Empirical evaluation on natural
language processing and computer vision tasks shows that our method outperforms
other state-of-the-art baselines.
- Abstract(参考訳): 変圧器ベースのモデルのような現代的な大規模ニューラルネットワークのトレーニングに微分プライベート確率勾配(DPSGD)を適用することは、各イテレーションスケールの勾配に付加されるノイズの大きさがモデル次元に大きく影響するため、難しい作業である。
我々は,ニューラルネットワークの低ランク構造とスパース構造を十分に活用し,勾配更新の次元を低減し,dpsgdの負の影響を緩和する統一フレームワークである$\textsf{lsg}$を提案する。
勾配の更新は、まず1対の低ランク行列で近似される。
そして、新たな戦略を用いて勾配を緩和し、ニューラルネットの性能を維持することができる低次元でノイズの少ない更新を実現する。
自然言語処理とコンピュータビジョンタスクの実証評価により,本手法が他の最先端のベースラインよりも優れていることが示された。
関連論文リスト
- Gradient Rewiring for Editable Graph Neural Network Training [84.77778876113099]
underlineGradient underlineRewiringメソッドは、textbfGREという、アンダーライン編集可能なグラフニューラルネットワークトレーニングのためのものだ。
そこで本稿では,textbfGRE という名前のアンダーライン編集可能なグラフニューラルネットワークトレーニングのための,シンプルで効果的なアンダーライングラディエントアンダーラインリスイッチ法を提案する。
論文 参考訳(メタデータ) (2024-10-21T01:01:50Z) - Occam Gradient Descent [0.0]
Occam Gradient Descent はモデルサイズを最小化して一般化誤差を最小化し、モデルの重みへの勾配勾配を最小化するアルゴリズムである。
我々のアルゴリズムは、修正することなく、あらゆるニューラルネットワークの重みとトポロジ的な大きさの空間を同時に下降させる。
論文 参考訳(メタデータ) (2024-05-30T15:58:22Z) - Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Improving Deep Learning Interpretability by Saliency Guided Training [36.782919916001624]
精度法はモデル予測において重要な入力特徴を強調するために広く用いられている。
既存の方法の多くは、修正された勾配関数のバックプロパゲーションを使用して、サリエンシマップを生成する。
本稿では,予測に使用する雑音勾配を低減するために,ニューラルネットワークに対するサリエンシ指導訓練手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:05:23Z) - Inertial Proximal Deep Learning Alternating Minimization for Efficient
Neutral Network Training [16.165369437324266]
この研究は、有名な慣性手法であるiPDLAMによって改良されたDLAMを開発し、電流と最後の繰り返しの線形化によって点を予測する。
実世界のデータセットの数値計算結果を報告し,提案アルゴリズムの有効性を実証した。
論文 参考訳(メタデータ) (2021-01-30T16:40:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。