論文の概要: Adaptive Hierarchical Hyper-gradient Descent
- arxiv url: http://arxiv.org/abs/2008.07277v3
- Date: Tue, 11 May 2021 06:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 02:59:58.387422
- Title: Adaptive Hierarchical Hyper-gradient Descent
- Title(参考訳): Adaptive Hierarchical Hyper-gradient Descent
- Authors: Renlong Jie, Junbin Gao, Andrey Vasnev and Minh-Ngoc Tran
- Abstract要約: 本稿では,複数レベルの学習率と階層構造を組み合わせることで,パラメータを適応的に学習する手法を提案する。
フィードフォワードネットワーク(LeNet-5)やResNet-18/34(ResNet-18/34)など、複数のネットワークアーキテクチャの実験により、提案手法は様々な状況においてベースライン適応手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 26.528772022408777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we investigate learning rate adaption at different levels
based on the hyper-gradient descent framework and propose a method that
adaptively learns the optimizer parameters by combining multiple levels of
learning rates with hierarchical structures. Meanwhile, we show the
relationship between regularizing over-parameterized learning rates and
building combinations of adaptive learning rates at different levels. The
experiments on several network architectures, including feed-forward networks,
LeNet-5 and ResNet-18/34, show that the proposed multi-level adaptive approach
can outperform baseline adaptive methods in a variety of circumstances.
- Abstract(参考訳): 本研究では,多段階の学習率と階層構造を組み合わせた最適化パラメータを適応的に学習する手法を提案する。
一方,オーバーパラメータ化学習率の定式化と,異なるレベルにおける適応学習率の組み合わせの関係を示す。
フィードフォワードネットワーク、lenet-5、resnet-18/34を含むいくつかのネットワークアーキテクチャの実験により、提案するマルチレベル適応アプローチは、様々な状況においてベースライン適応手法よりも優れることが示された。
関連論文リスト
- Adaptive multiple optimal learning factors for neural network training [0.0]
提案した適応多重最適学習因子(AMOLF)アルゴリズムは,乗算毎の誤差変化に基づいて動的に学習因子数を調整する。
この論文は、目的関数の曲率に基づいて重みをグループ化する手法や、大きなヘッセン行列を圧縮する手法も導入している。
論文 参考訳(メタデータ) (2024-06-04T21:18:24Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Learning the Right Layers: a Data-Driven Layer-Aggregation Strategy for
Semi-Supervised Learning on Multilayer Graphs [2.752817022620644]
多層グラフ上のクラスタリング(あるいはコミュニティ検出)は、さらにいくつかの複雑さを生じさせる。
主な課題の1つは、各レイヤがクラスタのイテレーションの割り当てにどの程度貢献するかを確立することである。
利用可能な入力ラベルから異なる層を最適に非線形に組み合わせたパラメータフリーなラプラシアン正規化モデルを提案する。
論文 参考訳(メタデータ) (2023-05-31T19:50:11Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Multilevel-in-Layer Training for Deep Neural Network Regression [1.6185544531149159]
ニューラルネットワークの階層構造を構築し,訓練する多段階正規化戦略を提案する。
我々はPDE回帰問題を用いて,本手法が効果的な正則化手法であることを示す。
論文 参考訳(メタデータ) (2022-11-11T23:53:46Z) - Pareto-wise Ranking Classifier for Multi-objective Evolutionary Neural
Architecture Search [15.454709248397208]
本研究は,多様な設計目的の下で実現可能な深層モデルを見つける方法に焦点を当てる。
オンライン分類器を訓練し、候補と構築された参照アーキテクチャとの優位性関係を予測する。
さまざまな目的や制約の下で、2Mから6Mまでの異なるモデルサイズを持つ多数のニューラルアーキテクチャを見つけます。
論文 参考訳(メタデータ) (2021-09-14T13:28:07Z) - SUPER-ADAM: Faster and Universal Framework of Adaptive Gradients [99.13839450032408]
一般的な問題を解決するための適応アルゴリズムのための普遍的な枠組みを設計することが望まれる。
特に,本フレームワークは,非収束的設定支援の下で適応的手法を提供する。
論文 参考訳(メタデータ) (2021-06-15T15:16:28Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。