論文の概要: Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models
- arxiv url: http://arxiv.org/abs/2604.24708v1
- Date: Mon, 27 Apr 2026 17:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.262682
- Title: Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models
- Title(参考訳): 大規模モデルの自動学習率探索によるスケーラブルなハイパーパラメータ・ディバージェント・アンサンブルトレーニング
- Authors: Hailing Cheng, Tao Huang, Chen Zhu, Antonio Alonso,
- Abstract要約: データ並列勾配勾配による大規模ニューラルネットワークのトレーニングでは、NGPUレプリカを割り当てて、効果的に同一の更新を計算する。
本稿では,これらのレプリカを同時学習率設定のオーバヘッドに再利用する手法を提案する。
さらに,レプリカ間の相対的トレーニング損失を性能信号として扱う自動学習率(autoLR)コントローラを提案する。
- 参考スコア(独自算出の注目度): 8.687019807776881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large neural networks with data-parallel stochastic gradient descent allocates N GPU replicas to compute effectively identical updates -- a practice that leaves the rich space of learning rate configurations entirely unexplored during training. We propose Hyperparameter-Divergent Ensemble Training (HDET), a method that repurposes these replicas for simultaneous learning rate exploration at negligible communication overhead. HDET operates in alternating phases: a fan-out stage in which replicas train independently under a structured, symmetric spread of learning rates, and a converge stage in which parameters are averaged across all replicas via AllReduce every T steps. Building on this ensemble substrate, we further propose an automatic learning rate (auto-LR) controller that treats the relative training loss across replicas as a performance signal, updating the shared base schedule toward higher-performing configurations via a momentum-based gradient-free meta-update. The combined method produces a self-adapting learning rate schedule that improves both optimization quality and generalization without additional hyperparameter sweeps or training budget. Crucially, the framework generalizes beyond learning rate: any scalar hyperparameter that does not alter model architecture -- such as dropout rate, attention scale temperature, or weight-decay coefficient -- can be explored across replicas using the same fan-out/converge protocol, with inter-replica loss differences serving as zero-order hypergradients that guide the search direction. HDET is implemented as a drop-in replacement for PyTorch's OneCycleLR scheduler, requiring no changes to model architecture, optimizer, or data pipeline.
- Abstract(参考訳): データ並列確率勾配勾配による大規模ニューラルネットワークのトレーニングでは、NGPUレプリカを割り当てて、効果的に同一の更新を計算する。
我々は,これらのレプリカを,無視可能な通信オーバーヘッドでの同時学習率探索に活用するハイパーパラメータ・ディバージェント・アンサンブル・トレーニング(HDET)を提案する。
HDETは、構造化された学習率の対称的な拡散の下で、レプリカが独立して訓練するファンアウトステージと、AllReduceの全Tステップを通じて、すべてのレプリカ間でパラメータが平均化される収束ステージである。
このアンサンブル基板上に構築した自動学習速度(auto-LR)コントローラは,レプリカ間の相対的なトレーニング損失をパフォーマンス信号として扱い,モーメントベースの勾配のないメタ更新によって共有ベーススケジュールを高パフォーマンスな構成に更新する。
組み合わせた手法は、最適化品質と一般化の両方を、追加のハイパーパラメータスイープやトレーニング予算なしで改善する自己適応型学習率スケジュールを生成する。
モデルアーキテクチャを変更しないスカラーハイパーパラメータ(例えば、ドロップアウト率、注意スケール温度、ウェイトデカイ係数)は、同じファンアウト/コンバージプロトコルを使用してレプリカ間で探索することができる。
HDETはPyTorchのOneCycleLRスケジューラのドロップイン代替として実装されており、モデルアーキテクチャやオプティマイザ、データパイプラインを変更する必要はない。
関連論文リスト
- Neural Network Optimization Reimagined: Decoupled Techniques for Scratch and Fine-Tuning [49.751529745537546]
我々はDualOptを提案する。DualOptは、スクラッチからトレーニングに適した最適化技術を分離する新しいアプローチである。
スクラッチからのトレーニングでは、収束と一般化の両面を強化するために設計されたリアルタイムな層ワイド・ウェイト・デポジットを導入する。
我々は、異なる下流タスクの様々な要求に適応して、レイヤ単位の重量減衰を拡張して、レイヤ間のロールバックレベルを動的に調整する。
論文 参考訳(メタデータ) (2026-04-21T06:27:18Z) - SIMPLER: Efficient Foundation Model Adaptation via Similarity-Guided Layer Pruning for Earth Observation [3.1313965020437546]
SIMPLERは,予測とデプロイメントのコストを削減できるアーキテクチャ選択手法である。
Prithvi-EO-2では、SIMPLERは最大79%のパラメータを持ち、ベースライン性能は94%であり、2.1倍のトレーニングスピードアップと2.6倍の推論スピードアップをもたらす。
論文 参考訳(メタデータ) (2026-03-20T11:38:32Z) - DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning [63.65467569295623]
本稿では,これらの課題に対処するための差別的表現学習(DRL)フレームワークを提案する。
逐次学習を効果的かつ効率的に行うために、DRLのネットワークはPTM上に構築される。
我々のDRLは、CIL時代を通して、他の最先端の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-14T03:19:15Z) - Sig2Model: A Boosting-Driven Model for Updatable Learned Indexes [6.133666849556217]
Sig2Modelは効率的で適応的な学習指標であり、3つの主要な手法による再学習コストを最小限に抑える。
Sig2Modelは、トレーニングコストを最大20倍に削減し、最大3倍高いQPSを実現し、最大1000倍のメモリを使用する。
論文 参考訳(メタデータ) (2025-09-25T06:07:13Z) - Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z) - AgEBO-Tabular: Joint Neural Architecture and Hyperparameter Search with
Autotuned Data-Parallel Training for Tabular Data [11.552769149674544]
大規模データセットに対する高性能な予測モデルの開発は難しい課題である。
最近の自動機械学習(AutoML)は、予測モデル開発を自動化するための有望なアプローチとして現れている。
我々は,老化進化(AgE)とニューラルアーキテクチャ空間を探索する並列NAS法を組み合わせたAgEBO-Tabularを開発した。
論文 参考訳(メタデータ) (2020-10-30T16:28:48Z) - Robust Federated Learning Through Representation Matching and Adaptive
Hyper-parameters [5.319361976450981]
フェデレーション学習(Federated Learning)は、複数のクライアントに属するデータに対して単一のモデルをトレーニングする、分散されたプライバシ対応の学習シナリオである。
現在のフェデレーション学習手法は、異種クライアント側データ分散に苦慮している。
本稿では,局所モデルのばらつきを低減する表現マッチング手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T20:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。