Fugu-MT 論文翻訳(概要): Pay Attention to Small Weights

論文の概要: Pay Attention to Small Weights

arxiv url: http://arxiv.org/abs/2506.21374v1
Date: Thu, 26 Jun 2025 15:22:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:10.162788
Title: Pay Attention to Small Weights
Title（参考訳）: 小重量化への注意
Authors: Chao Zhou, Tom Jacobs, Advait Gadhikar, Rebekka Burkholz,
Abstract要約: NanoADAMは、微調整中に小さなマグニチュードのみを動的に更新する。これは、事前訓練中に学んだ重要な特徴をエンコードする可能性が高い、大きなマグニチュードの重量を保存する。
参考スコア（独自算出の注目度）: 16.13381473792083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finetuning large pretrained neural networks is known to be resource-intensive, both in terms of memory and computational cost. To mitigate this, a common approach is to restrict training to a subset of the model parameters. By analyzing the relationship between gradients and weights during finetuning, we observe a notable pattern: large gradients are often associated with small-magnitude weights. This correlation is more pronounced in finetuning settings than in training from scratch. Motivated by this observation, we propose NANOADAM, which dynamically updates only the small-magnitude weights during finetuning and offers several practical advantages: first, this criterion is gradient-free -- the parameter subset can be determined without gradient computation; second, it preserves large-magnitude weights, which are likely to encode critical features learned during pretraining, thereby reducing the risk of catastrophic forgetting; thirdly, it permits the use of larger learning rates and consistently leads to better generalization performance in experiments. We demonstrate this for both NLP and vision tasks.
Abstract（参考訳）: 大きな事前訓練されたニューラルネットワークを微調整することは、メモリと計算コストの両方の観点から、リソース集約であることが知られている。これを緩和するために、一般的なアプローチは、トレーニングをモデルのパラメータのサブセットに制限することです。微粒化過程における勾配と重みの関係を解析することにより、大きな勾配はしばしば小さなマグニチュードの重みと関連付けられているという顕著なパターンを観察する。この相関は、スクラッチからのトレーニングよりも微調整設定で顕著である。この観察により, NANOADAM は, 微調整中の小緯度のみを動的に更新し, パラメータサブセットを勾配計算なしで決定できる, 第二に, 事前学習時に学習される重要な特徴を符号化し, 破滅的な忘れ込みのリスクを低減し, 第三に, より大きな学習率の使用を許容し, 実験における一貫した一般化性能を向上できる, いくつかの実用的利点を提供する。 NLPタスクと視覚タスクの両方でこれを実証する。

関連論文リスト

Weight Decay may matter more than muP for Learning Rate Transfer in Practice [43.243484751818066]
muPのスケーリングルールは、層内の入力の幾何的アライメントに関する強い仮定と、その重みと勾配の更新に依存していることを示す。トレーニングの残り期間は、幅にまたがる内部表現の更新ダイナミクスを正しく安定化する muP よりも重量減衰である。このことは、muPのスケーリングが主に暗黙の学習率ウォームアップの形で機能し、修正されたウォームアップスケジュールで大きく置き換えることが可能であることを示唆している。
論文参考訳（メタデータ） (2025-10-21T21:36:14Z)
PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文参考訳（メタデータ） (2024-09-25T17:56:00Z)
Pre-Pruning and Gradient-Dropping Improve Differentially Private Image Classification [9.120531252536617]
本稿では,テキストプリプルーニングとテキストグラディエントドロップを用いた新しいトレーニングパラダイムを導入し,パラメータ空間の削減と拡張性の向上を図る。トレーニングパラダイムでは,プレプニング率と勾配ドロップ率,プライバシ損失,分類精度の間に緊張関係が生じる。
論文参考訳（メタデータ） (2023-06-19T14:35:28Z)
SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文参考訳（メタデータ） (2022-10-11T11:00:04Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
Training Thinner and Deeper Neural Networks: Jumpstart Regularization [2.8348950186890467]
我々は、神経細胞が死滅したり線状になるのを防ぐために正規化を使用します。従来のトレーニングと比較して、より薄く、より深く、そして(最も重要な)よりパラメータ効率の高いニューラルネットワークが得られます。
論文参考訳（メタデータ） (2022-01-30T12:11:24Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。我々はこれらの現象を具体的原理で補うと推測する。
論文参考訳（メタデータ） (2021-03-16T16:26:36Z)
Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文参考訳（メタデータ） (2020-07-25T13:23:37Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。