論文の概要: Learning Rate Engineering: From Coarse Single Parameter to Layered Evolution
- arxiv url: http://arxiv.org/abs/2604.27295v1
- Date: Thu, 30 Apr 2026 01:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.858921
- Title: Learning Rate Engineering: From Coarse Single Parameter to Layered Evolution
- Title(参考訳): 学習速度工学:粗い単一パラメータから階層化進化へ
- Authors: Ming-Hong Yao, Di Wang, Jian Cui, Jin-Yan Chen, Zi-Hao Cui, Fa Wang, Chen Wei, Qiu-Ye Yu,
- Abstract要約: 我々は,(Gen1)グローバル固定学習率,(Gen2)グローバルスケジューリング,(Gen3)パラメータレベル適応,(Gen4)階層レベルの微分,(Gen5)ジョイントレイヤタイムスケジューリングの5世代に学習率スケジューリングを体系化する。
本稿では,位相適応コサインスケジューリング,深度対応Grokfastフィルタ,LARSスタイルの信頼率を1つのコヒーレント勾配に統合する統合フレームワークであるDALSを提案する。
我々は、合成、CIFAR-10(スクラッチから)、RTEの5世代にわたる3つのDALS変種を含む18の戦略をベンチマークした。
- 参考スコア(独自算出の注目度): 11.642796814179926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate scheduling has evolved from the single global fixed rate of early SGD to sophisticated layer-wise adaptive strategies. We systematize this evolution into five generations: (Gen1) global fixed learning rates, (Gen2) global scheduling, (Gen3) parameter-level adaptation, (Gen4) layer-level differentiation, and (Gen5) joint layer-time scheduling. We trace the fundamental motivation behind each transition, showing how the shift from one-size-fits-all to tailoring by layer and time addresses the impossible trinity of transfer learning: lower layers require small updates to preserve general knowledge while higher layers need large updates to adapt to new tasks. Building on this taxonomy, we propose Discriminative Adaptive Layer Scaling (DALS), a unified framework that integrates phase-adaptive cosine scheduling, depth-aware Grokfast gradient filtering, and LARS-style trust ratios into a single coherent optimizer. We benchmark 18 strategies including three DALS variants across all five generations on five datasets: synthetic, CIFAR-10 (from scratch), RTE, TREC-6, and IMDb (fine-tuning). On synthetic, DALS achieves the best accuracy at 98.0%, while DALS-Fast reaches 90% in just 3 epochs. The cross-dataset analysis reveals striking regime-dependent patterns -- no single strategy wins across all regimes. Critically, STLR+Discriminative, the ULMFiT champion, catastrophically fails on from-scratch tasks (43.6% on TREC-6 from scratch vs. 96.8% with RAdam), confirming that directional decay biases are harmful without pretrained features. DALS avoids either extreme, achieving the best synthetic result while maintaining competitive fine-tuning performance.
- Abstract(参考訳): 学習速度のスケジューリングは、初期のSGDの単一のグローバルな固定レートから、高度なレイヤーワイド適応戦略へと進化してきた。
我々は,この進化を,(Gen1)グローバル固定学習率,(Gen2)グローバルスケジューリング,(Gen3)パラメータレベル適応,(Gen4)階層レベルの微分,(Gen5)ジョイントレイヤタイムスケジューリングの5世代に体系化する。
下位層は一般的な知識を維持するために小さな更新を必要とし、上位層は新しいタスクに適応するために大きな更新を必要とします。
この分類に基づいて,位相適応コサインスケジューリング,深度対応Grokfast勾配フィルタリング,LARSスタイルの信頼率を単一のコヒーレントオプティマイザに統合する統合フレームワークであるDALSを提案する。
我々は、合成、CIFAR-10(スクラッチから)、RTE、TREC-6、IMDb(微調整)の5世代にわたる3つのDALS変種を含む18の戦略をベンチマークした。
合成では、DALSは98.0%、DALS-Fastはわずか3時間で90%に達する。
クロスデータセット分析は、体制に依存した顕著なパターンを明らかにしている。
批判的に言えば、ULMFiTのチャンピオンであるSTLR+Discriminativeは、TREC-6をスクラッチから43.6%、RAdamで96.8%)破砕作業で破滅的に失敗し、指向性崩壊バイアスが予め訓練された特徴なしで有害であることを確認した。
DALSは極端に避け、競争力のある微調整性能を維持しながら最高の合成結果を達成する。
関連論文リスト
- ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation [16.04915509466256]
ClassEval-Proは、11ドメインにまたがる300のクラスレベルのタスクのベンチマークである。
最高のモデルは45.6%のクラスレベルのPass@1しか達成せず、最強モデルと最弱モデルの間に17.7ポイントの差がある。
論文 参考訳(メタデータ) (2026-04-29T17:38:37Z) - Neural Network Optimization Reimagined: Decoupled Techniques for Scratch and Fine-Tuning [49.751529745537546]
我々はDualOptを提案する。DualOptは、スクラッチからトレーニングに適した最適化技術を分離する新しいアプローチである。
スクラッチからのトレーニングでは、収束と一般化の両面を強化するために設計されたリアルタイムな層ワイド・ウェイト・デポジットを導入する。
我々は、異なる下流タスクの様々な要求に適応して、レイヤ単位の重量減衰を拡張して、レイヤ間のロールバックレベルを動的に調整する。
論文 参考訳(メタデータ) (2026-04-21T06:27:18Z) - OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation [39.548179971747906]
ドメイン固有の微調整は、高密度レトリバーにとって不可欠であるが、すべてのトレーニングペアが学習プロセスに等しく貢献するわけではない。
我々は、この不均一性を利用して、検索モデル適応の有効性と効率を両立させるデータプルーニングフレームワークであるOPERAを紹介する。
論文 参考訳(メタデータ) (2026-03-17T23:11:45Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - One Size Does Not Fit All: Architecture-Aware Adaptive Batch Scheduling with DEBA [9.344832445480415]
適応型バッチスケジューラであるDEBAを導入する。
アーキテクチャが適応の有効性を根本的に決定できることを実証する。
論文 参考訳(メタデータ) (2025-11-05T19:19:39Z) - Continual Learning, Not Training: Online Adaptation For Agents [0.0]
私たちは、推論(教師)を実行から切り離すデュアルエージェントアーキテクチャATLAS(Adaptive Teaching and Learning System)を紹介します。
ATLASは勾配のない連続学習を実現し、モデルパラメータからシステムレベルのオーケストレーションへの適応の軌跡をシフトさせる。
論文 参考訳(メタデータ) (2025-11-02T21:48:31Z) - A Stable Whitening Optimizer for Efficient Neural Network Training [99.7641280234926]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。
SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文 参考訳(メタデータ) (2025-06-01T15:30:37Z) - Distributed Evolution Strategies Using TPUs for Meta-Learning [0.0]
本稿では,処理ユニット(TPU)を用いた分散進化的メタラーニング戦略を提案する。
Omniglotデータセットの進化戦略を訓練したプロトタイプネットワークを用いて、5ショットの分類問題に対して98.4%の精度を達成した。
我々のアルゴリズムは、勾配を計算するために自動微分よりも最大40分の1のメモリを使用しており、その結果、バックプロパゲーション訓練された等価値の1.3%以内の精度が得られた。
論文 参考訳(メタデータ) (2022-01-01T02:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。