論文の概要: ZENITH: Automated Gradient Norm Informed Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2601.15212v1
- Date: Wed, 21 Jan 2026 17:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.479871
- Title: ZENITH: Automated Gradient Norm Informed Stochastic Optimization
- Title(参考訳): ZENITH: 自動グラディエントノルムインフォームド確率最適化
- Authors: Dhrubo Saha,
- Abstract要約: ZENITHは、標準の時間的進化を用いて学習率に適応する。
基準線よりも低い壁面時間で高いテスト精度を達成する。
また、MS COCO上のオブジェクト検出、キーポイント検出、インスタンスセグメンテーションにおいて優れたmAPを得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep computer vision models requires manual oversight or hyperparameter tuning of the learning rate (LR) schedule. While existing adaptive optimizers schedule the LR automatically, they suffer from computational and memory overhead, incompatibility with regularization, and suboptimal LR choices. In this work, we introduce the ZENITH (Zero-overhead Evolution using Norm-Informed Training History) optimizer, which adapts the LR using the temporal evolution of the gradient norm. Image classification experiments spanning 6 CNN architectures and 6 benchmarks demonstrate that ZENITH achieves higher test accuracy in lower wall-clock time than baselines. It also yielded superior mAP in object detection, keypoint detection, and instance segmentation on MS COCO using the R-CNN family of models. Furthermore, its compatibility with regularization enables even better generalization.
- Abstract(参考訳): 深層コンピュータビジョンモデルのトレーニングには、学習率(LR)スケジュールを手動で監視またはハイパーパラメータチューニングする必要がある。
既存のアダプティブオプティマイザはLRを自動でスケジュールするが、計算とメモリのオーバーヘッド、正規化との非互換性、そして亜最適LR選択に悩まされる。
本研究では,勾配規範の時間的進化を用いてLRを適応させるZENITH(Zero-overhead Evolution using Norm-Informed Training History)オプティマイザを導入する。
6つのCNNアーキテクチャと6つのベンチマークにまたがる画像分類実験は、ZENITHが基準線よりも低い壁面時間で高いテスト精度を達成することを示した。
また、オブジェクト検出、キーポイント検出、およびR-CNNシリーズのモデルを用いたMS COCO上のインスタンスセグメンテーションにおいて、優れたmAPを得た。
さらに、正規化との互換性により、より優れた一般化が可能となる。
関連論文リスト
- FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning [63.20028888397869]
FOREVER(FORgEtting curVe-inspired mEmory)は、リプレイスケジュールをモデル中心の時間の概念と整合させる新しいフレームワークである。
このアプローチに基づいて、ForeVERは、リプレイのタイミングを決定するための曲線ベースのリプレイスケジューラと、リプレイの方法を適応的に制御するインテンシティ対応の正規化機構を組み込んでいる。
論文 参考訳(メタデータ) (2026-01-07T13:55:14Z) - Explainable Learning Rate Regimes for Stochastic Optimization [12.836088204932842]
現代の機械学習は勾配降下(SGD)によって訓練され、その性能は学習率(LR)が時間とともにどのように調整され減少するかに依存する。
既存のLRレギュレーションは複雑で、あるいは1つ以上の追加のハイパーパラメータを手動で調整する必要がある。
この研究は、内在的な勾配の変化によってのみLRが自動的に更新される方法を明らかにする。
論文 参考訳(メタデータ) (2025-08-19T08:51:38Z) - ESSA: Evolutionary Strategies for Scalable Alignment [8.418036456622158]
我々は,前向き推論とブラックボックス最適化のみを用いて,Large Language Models (LLM) を整列する勾配のないフレームワークであるESSAを提案する。
ESSAはQwen2.5-Math-7Bのテスト精度をGSM8Kで12.6%、PRM800Kで14.8%改善し、IFEvalでLLaMA3.1-8Bの精度を22.5%向上させた。
大規模な設定では、ESSAは勾配ベースの方法よりもスケーリングが強い。
論文 参考訳(メタデータ) (2025-07-06T16:23:07Z) - Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。
SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文 参考訳(メタデータ) (2025-06-01T15:30:37Z) - Adaptive Rectification Sampling for Test-Time Compute Scaling [10.160759436445526]
よりきめ細かいレベルでの誤りの修正を支援するために,適応整形サンプリング(AR-Sampling)を提案する。
提案手法により, よりきめ細かいレベルでの再考が可能となり, 解の精度が向上し, 合理的な数のトークンが生成される。
論文 参考訳(メタデータ) (2025-04-02T02:57:52Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文 参考訳(メタデータ) (2020-07-29T01:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。