論文の概要: Regularized Adaptive Momentum Dual Averaging with an Efficient Inexact Subproblem Solver for Training Structured Neural Network
- arxiv url: http://arxiv.org/abs/2403.14398v1
- Date: Thu, 21 Mar 2024 13:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:09:01.288137
- Title: Regularized Adaptive Momentum Dual Averaging with an Efficient Inexact Subproblem Solver for Training Structured Neural Network
- Title(参考訳): ニューラルネットワークの学習のための非接触サブプロブレム解法を用いた正規化適応モーメント2次平均化
- Authors: Zih-Syuan Huang, Ching-pei Lee,
- Abstract要約: 本稿では、構造化ニューラルネットワークのトレーニングのための正規化適応モーメントデュアル平均化(RAMDA)を提案する。
定常収束点における正則化器によって誘導される理想構造が得られることを示す。
大規模コンピュータビジョン、言語モデリング、音声タスクの実験では、提案されたRAMDAは効率的であり、構造化ニューラルネットワークのトレーニングのための技術よりも一貫して優れていることが示されている。
- 参考スコア(独自算出の注目度): 9.48424754175943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a Regularized Adaptive Momentum Dual Averaging (RAMDA) algorithm for training structured neural networks. Similar to existing regularized adaptive methods, the subproblem for computing the update direction of RAMDA involves a nonsmooth regularizer and a diagonal preconditioner, and therefore does not possess a closed-form solution in general. We thus also carefully devise an implementable inexactness condition that retains convergence guarantees similar to the exact versions, and propose a companion efficient solver for the subproblems of both RAMDA and existing methods to make them practically feasible. We leverage the theory of manifold identification in variational analysis to show that, even in the presence of such inexactness, the iterates of RAMDA attain the ideal structure induced by the regularizer at the stationary point of asymptotic convergence. This structure is locally optimal near the point of convergence, so RAMDA is guaranteed to obtain the best structure possible among all methods converging to the same point, making it the first regularized adaptive method outputting models that possess outstanding predictive performance while being (locally) optimally structured. Extensive numerical experiments in large-scale modern computer vision, language modeling, and speech tasks show that the proposed RAMDA is efficient and consistently outperforms state of the art for training structured neural network. Implementation of our algorithm is available at http://www.github.com/ismoptgroup/RAMDA/.
- Abstract(参考訳): 本稿では、構造化ニューラルネットワークのトレーニングのための正規化適応モーメントデュアル平均化(RAMDA)アルゴリズムを提案する。
既存の正規化適応法と同様に、RAMDAの更新方向を計算するサブプロブレムは非滑らかな正規化器と対角式のプレコンディショナーを含んでいるため、一般にクローズドフォームの解を持たない。
そこで本研究では,RAMDAと既存手法の両方のサブプロブレムに対して,コンバージェンス保証を厳格に保持する実装可能な不コンパクト性条件を慎重に考案し,それを実現するための相補的効率的な解法を提案する。
変分解析における多様体同定の理論を利用して、そのような不完全性が存在する場合でも、RAMDA の反復体は漸近収束の定常点において正則化子によって誘導される理想構造に達することを示す。
この構造は収束点付近で局所的に最適であるため、RAMDAは同じ点に収束する全てのメソッドの中で可能な限り最高の構造が得られることが保証され、(局所的に)最適に構造化された状態で優れた予測性能を持つモデルを出力する最初の正規化適応法となる。
大規模コンピュータビジョン、言語モデリング、音声タスクにおける大規模な数値実験は、提案されたRAMDAが効率的であり、構造化ニューラルネットワークのトレーニングのための最先端技術よりも一貫して優れていることを示している。
私たちのアルゴリズムの実装は、http://www.github.com/ismoptgroup/RAMDA/で利用可能です。
関連論文リスト
- Efficient Second-Order Neural Network Optimization via Adaptive Trust Region Methods [0.0]
SecondOrderAdaptive (SOAA) は、従来の二階法の限界を克服するために設計された新しい最適化アルゴリズムである。
私たちは、SOAAが1次近似よりも速く、より安定した収束を達成することを実証的に実証します。
論文 参考訳(メタデータ) (2024-10-03T08:23:06Z) - SequentialAttention++ for Block Sparsification: Differentiable Pruning
Meets Combinatorial Optimization [24.55623897747344]
ニューラルネットワークプルーニングは、大規模で拡張性があり、解釈可能で、一般化可能なモデルを構築するための重要な技術である。
群スパース最適化の非正規化として,既存の微分可能なプルーニング手法がいくつあるかを示す。
我々は、ImageNetとCriteoデータセット上の大規模ニューラルネットワークブロックワイドプルーニングタスクの最先端技術であるSequentialAttention++を提案する。
論文 参考訳(メタデータ) (2024-02-27T21:42:18Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Adaptive Step-Size Methods for Compressed SGD [15.32764898836189]
分散および分散化ネットワークにおける通信ボトルネックに対処するために,圧縮分散型グラディエント Descent (SGD) アルゴリズムが最近提案されている。
我々は、圧縮データセットの順序収束率を確立するために使用するスケーリングステップを導入する。
実世界のデータセットに対する実験結果を示す。
論文 参考訳(メタデータ) (2022-07-20T17:20:58Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - Hybrid ISTA: Unfolding ISTA With Convergence Guarantees Using Free-Form
Deep Neural Networks [50.193061099112626]
学習可能なパラメータを持つディープニューラルネットワーク(DNN)として反復アルゴリズムを展開させることで、線形逆問題を解決することを約束している。
既存のISTAベースのアンフォールドアルゴリズムは、収束を保証するために部分重結合構造で繰り返し更新するネットワークアーキテクチャを制限する。
本論文は,ISTAに基づく非折り畳みアルゴリズムにおける自由形式DNNを実現するための収束証明可能なフレームワークを初めて提供するものである。
論文 参考訳(メタデータ) (2022-04-25T13:17:57Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。