論文の概要: Curvature Injected Adaptive Momentum Optimizer for Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2109.12504v1
- Date: Sun, 26 Sep 2021 06:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:12:36.331920
- Title: Curvature Injected Adaptive Momentum Optimizer for Convolutional Neural
Networks
- Title(参考訳): 畳み込みニューラルネットワークのための曲率注入適応モーメント最適化器
- Authors: Shiv Ram Dubey, S.H. Shabbeer Basha, Satish Kumar Singh, Bidyut Baran
Chaudhuri
- Abstract要約: 本稿では、降下勾配に対するAdaInjectと呼ばれる新しいアプローチを提案する。
曲率情報は、更新ルールの2次モーメントを注入するウェイトとして使用される。
AdaInjectアプローチは、曲率情報を活用することにより、パラメータの更新を促進する。
- 参考スコア(独自算出の注目度): 21.205976369691765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new approach, hereafter referred as AdaInject,
for the gradient descent optimizers by injecting the curvature information with
adaptive momentum. Specifically, the curvature information is used as a weight
to inject the second order moment in the update rule. The curvature information
is captured through the short-term parameter history. The AdaInject approach
boosts the parameter update by exploiting the curvature information. The
proposed approach is generic in nature and can be integrated with any existing
adaptive momentum stochastic gradient descent optimizers. The effectiveness of
the AdaInject optimizer is tested using a theoretical analysis as well as
through toy examples. We also show the convergence property of the proposed
injection based optimizer. Further, we depict the efficacy of the AdaInject
approach through extensive experiments in conjunction with the state-of-the-art
optimizers, i.e., AdamInject, diffGradInject, RadamInject, and AdaBeliefInject
on four benchmark datasets. Different CNN models are used in the experiments. A
highest improvement in the top-1 classification error rate of $16.54\%$ is
observed using diffGradInject optimizer with ResNeXt29 model over the CIFAR10
dataset. Overall, we observe very promising performance improvement of existing
optimizers with the proposed AdaInject approach.
- Abstract(参考訳): 本稿では,適応運動量で曲率情報を注入することにより,勾配降下最適化器のための新しいアプローチAdaInjectを提案する。
具体的には、更新ルールに第2次モーメントを注入する重みとして曲率情報を用いる。
曲率情報は、短期パラメータ履歴を介して取得される。
adainjectアプローチは、曲率情報を活用してパラメータ更新を促進する。
提案手法は本質的に汎用的であり,任意の適応運動量確率勾配最適化器と統合可能である。
AdaInjectオプティマイザの有効性は、理論解析とおもちゃの例を用いて検証される。
また,提案したインジェクションベースオプティマイザの収束特性を示す。
さらに,adainjectアプローチの有効性を,4つのベンチマークデータセット上で,最先端オプティマイザ,すなわちadaminject,diffgradinject,radaminject,adabeliefinjectと連携して,広範な実験を通じて記述する。
実験には様々なCNNモデルが使用されている。
CIFAR10データセット上のResNeXt29モデルでdiffGradInjectオプティマイザを使用して、トップ-1の分類エラー率を16.54.%$で改善した。
全体としては,提案するadainjectアプローチによる既存のオプティマイザの性能向上が期待できる。
関連論文リスト
- Gradient Guidance for Diffusion Models: An Optimization Perspective [45.6080199096424]
本稿では,ユーザ特定目的の最適化に向けて,事前学習した拡散モデルを適用するための勾配ガイダンスの形式について検討する。
我々は,その最適化理論とアルゴリズム設計を体系的に研究するために,誘導拡散の数学的枠組みを確立する。
論文 参考訳(メタデータ) (2024-04-23T04:51:02Z) - Efficient adjustment for complex covariates: Gaining efficiency with
DOPE [56.537164957672715]
共変量によって表現される情報のサブセットを調整可能なフレームワークを提案する。
理論的な結果に基づいて,平均処理効果(ATE)の効率的な評価を目的とした,デバイアスドアウトカム適応確率推定器(DOPE)を提案する。
その結果,DOPE は様々な観測環境において ATE 推定のための効率的かつ堅牢な手法を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-20T13:02:51Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Predictive Modeling through Hyper-Bayesian Optimization [60.586813904500595]
本稿では,モデル選択とBOを統合する新しい手法を提案する。
このアルゴリズムは、モデル空間のBOと関数空間のBOの間を行き来する。
サンプル効率の改善に加えて、ブラックボックス機能に関する情報も出力する。
論文 参考訳(メタデータ) (2023-08-01T04:46:58Z) - Deep neural operators can serve as accurate surrogates for shape
optimization: A case study for airfoils [3.2996060586026354]
本研究では, 形状最適化を目的とし, 未確認翼まわりの流れ場を推定するためにDeepONetsを用いることを検討した。
本稿では,オンライン最適化コストを桁違いに削減しつつ,予測精度の劣化が少ない結果を示す。
論文 参考訳(メタデータ) (2023-02-02T00:19:09Z) - EXACT: How to Train Your Accuracy [6.144680854063938]
本稿では,モデル出力にアセンシティを導入し,予測精度を最適化することで,新しい最適化フレームワークを提案する。
線形モデルと深層画像分類の実験により,提案手法は広く用いられている分類損失の強力な代替手段であることが示された。
論文 参考訳(メタデータ) (2022-05-19T15:13:00Z) - Gravity Optimizer: a Kinematic Approach on Optimization in Deep Learning [0.0]
グラデーションに基づく最適化のための別のアルゴリズムであるgravityを紹介する。
本論文では,深層学習モデルの損失を軽減するために,新しいアイデアがパラメータをどう変えるかを説明する。
また、移動平均の代替案を提案します。
論文 参考訳(メタデータ) (2021-01-22T16:27:34Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - Interpreting Robust Optimization via Adversarial Influence Functions [24.937845875059928]
本稿では、ロバストな最適化によって生成されるソリューションを調査するためのツールとして、AIF(Adversarial Influence Function)を紹介する。
AIFの使用法を説明するために、モデル感度(自然データにおける予測損失の変化を捉えるために定義された量)について検討する。
AIFを用いて、モデルの複雑さとランダムな平滑化が、特定のモデルに対するモデルの感度にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2020-10-03T01:19:10Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。