論文の概要: ASGO: Adaptive Structured Gradient Optimization
- arxiv url: http://arxiv.org/abs/2503.20762v1
- Date: Wed, 26 Mar 2025 17:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:19:36.572155
- Title: ASGO: Adaptive Structured Gradient Optimization
- Title(参考訳): ASGO:Adaptive Structured Gradient Optimization
- Authors: Kang An, Yuxing Liu, Rui Pan, Shiqian Ma, Donald Goldfarb, Tong Zhang,
- Abstract要約: 深層ニューラルネットワーク(DNN)のトレーニングは、構造化された最適化問題である。
勾配は低ランクであり、ヘッセンは概ブロック幅の対角線である。
本稿では,これらの特性を活かした新しい最適化アルゴリズムASGOを提案する。
- 参考スコア(独自算出の注目度): 16.26791889537082
- License:
- Abstract: Training deep neural networks (DNNs) is a structured optimization problem, because the parameters are naturally represented by matrices and tensors rather than simple vectors. Under this structural representation, it has been widely observed that gradients are low-rank and Hessians are approximately block-wise diagonal. These structured properties are crucial for designing efficient optimization algorithms but may not be utilized by current popular optimizers like Adam. In this paper, we present a novel optimization algorithm ASGO that capitalizes on these properties by employing a preconditioner that is adaptively updated using structured gradients. By fine-grained theoretical analysis, ASGO is proven to achieve superior convergence rates compared to existing structured gradient methods. Based on the convergence theory, we further demonstrate that ASGO can benefit from the low-rank and block-wise diagonal properties. We also discuss practical modifications of ASGO and empirically verify the effectiveness of the algorithm on language model tasks.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)のトレーニングは、パラメータが単純なベクトルではなく行列やテンソルによって自然に表されるため、構造化された最適化問題である。
この構造的表現の下では、勾配は低ランクであり、ヘッセンは概ブロックワイド対角線であることが広く観測されている。
これらの構造的特性は効率的な最適化アルゴリズムの設計に不可欠であるが、Adamのような一般的な最適化アルゴリズムでは利用できない。
本稿では,構造化勾配を用いて適応的に更新されるプレコンディショナーを用いて,これらの特性を利用する新しい最適化アルゴリズムASGOを提案する。
微粒な理論解析により、ASGOは既存の構造勾配法よりも収束率が高いことが証明されている。
収束理論に基づき、ASGOが低ランクおよびブロックワイド対角特性の恩恵を受けることをさらに証明する。
また、ASGOの実践的な修正についても検討し、言語モデルタスクにおけるアルゴリズムの有効性を実証的に検証する。
関連論文リスト
- Group and Shuffle: Efficient Structured Orthogonal Parametrization [3.540195249269228]
構造化された行列の新しいクラスを導入し、以前の研究から構造化されたクラスを統一し一般化する。
我々は,テキスト・画像拡散モデルの適応や,言語モデルにおける下流タスクの微調整など,異なる領域での手法を実証的に検証する。
論文 参考訳(メタデータ) (2024-06-14T13:29:36Z) - CF-OPT: Counterfactual Explanations for Structured Prediction [47.36059095502583]
ディープニューラルネットワークの最適化レイヤは構造化学習で人気を博し、さまざまなアプリケーションにおける最先端技術の改善に寄与している。
しかし、これらのパイプラインは2つの不透明な層(ディープニューラルネットワークのような非常に非線形な予測モデル)と、通常複雑なブラックボックス解決器である最適化層)で構成されているため、解釈性に欠ける。
我々のゴールは、このような手法の透明性を向上させることであり、対実的な説明を提供することである。
論文 参考訳(メタデータ) (2024-05-28T15:48:27Z) - Gradient-free neural topology optimization [0.0]
勾配のないアルゴリズムは勾配に基づくアルゴリズムと比較して多くの繰り返しを収束させる必要がある。
これにより、反復1回あたりの計算コストとこれらの問題の高次元性のため、トポロジ最適化では実現不可能となった。
我々は,潜時空間における設計を最適化する場合に,少なくとも1桁の繰り返し回数の減少につながる事前学習型ニューラルリパラメータ化戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:00:49Z) - Unnatural Algorithms in Machine Learning [0.0]
この特性を持つ最適化アルゴリズムは、自然勾配降下の離散近似とみなすことができる。
本稿では、この自然性をより一般的に導入する簡単な方法を紹介し、多くの一般的な機械学習トレーニングアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2023-12-07T22:43:37Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - The Implicit Bias for Adaptive Optimization Algorithms on Homogeneous
Neural Networks [21.63353575405414]
同質ニューラルネットワークにおける適応最適化アルゴリズムの暗黙バイアスについて検討する。
非線形深部ニューラルネットワークにおける適応最適化の収束方向を研究する最初の研究である。
論文 参考訳(メタデータ) (2020-12-11T11:15:32Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。