論文の概要: Dynamic Scaled Gradient Descent for Stable Fine-Tuning for Classifications
- arxiv url: http://arxiv.org/abs/2604.27987v1
- Date: Thu, 30 Apr 2026 15:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.159867
- Title: Dynamic Scaled Gradient Descent for Stable Fine-Tuning for Classifications
- Title(参考訳): 安定な微調整のための動的スケールグレーディエント染料の分類
- Authors: Nghia Bui, Lijing Wang,
- Abstract要約: 本稿では,トレーニング例によって返される勾配を,特に動的スケーラを用いて,正しく分類された例の勾配をスケールダウンするアルゴリズムを提案する。
複数のタスクと大規模な事前訓練モデルにまたがる様々なベンチマークデータセットの実験により、我々の手法はパフォーマンスのばらつきを一貫して減らし、既存のアプローチの精度を上回ります。
- 参考スコア(独自算出の注目度): 0.9174244628582179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pretrained models has become a standard approach to adapting pretrained knowledge to improve the accuracy on new sparse, imbalance datasets. However, issues arise when optimization falls into a collapsed state, where the model gets stuck, leading to degraded performance and unstable training. One possible reason for this is the cancellation of gradients across training examples. To address this problem, we propose a novel algorithm, dynamic scaled gradient descent (\mName), that directly modifies the gradients returned by training examples, specifically, scaling down the gradients of correctly classified examples using a dynamic scaler. This strategy offers both theoretical and empirical advantages in improving training stability. Experiments on a variety of benchmark datasets, spanning multiple tasks and large pretrained models, demonstrate that our method consistently reduces performance variance and surpasses the accuracy of existing approaches.
- Abstract(参考訳): 微調整事前学習モデルは、訓練済みの知識を適応させ、新しいスパース不均衡データセットの精度を向上させるための標準的アプローチとなっている。
しかし、最適化が崩壊した状態に陥り、モデルが行き詰まると、パフォーマンスが低下し、トレーニングが不安定になる。
この理由の1つは、トレーニング例間の勾配のキャンセルである。
この問題に対処するために, トレーニング例によって返される勾配を直接修正する, 動的スケーラを用いて, 正しく分類された例の勾配をスケールダウンする新しいアルゴリズム, 動的スケーラ(\mName)を提案する。
この戦略は、訓練安定性を改善するための理論的および実証的な利点を提供する。
複数のタスクと大規模な事前訓練モデルにまたがる様々なベンチマークデータセットの実験により、我々の手法はパフォーマンスのばらつきを一貫して減らし、既存のアプローチの精度を上回ります。
関連論文リスト
- Zero-Variance Gradients for Variational Autoencoders [32.818968022327866]
変分オートエンコーダ(VAE)のような深層生成モデルの訓練は、潜伏変数のサンプリングを通じて勾配をバックプロパゲートする必要性によって、しばしば妨げられる。
本稿では,この問題をサイドステップとして,Silent Gradientsと呼ぶ新しい視点を提案する。
推定器を改良する代わりに、特定のデコーダアーキテクチャを解析的に利用して予測されるELBOを計算する。
論文 参考訳(メタデータ) (2025-08-05T15:54:21Z) - Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-17T22:18:24Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - An Effective Dynamic Gradient Calibration Method for Continual Learning [11.555822066922508]
継続的学習(CL)は機械学習の基本的なトピックであり、目標は連続的なデータとタスクでモデルをトレーニングすることだ。
メモリ制限のため、すべての履歴データを保存できないため、破滅的な忘れの問題に直面します。
モデルの各更新ステップの勾配をキャリブレーションする有効なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-07-30T16:30:09Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。