論文の概要: Symbolic Discovery of Optimization Algorithms
- arxiv url: http://arxiv.org/abs/2302.06675v1
- Date: Mon, 13 Feb 2023 20:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 17:14:08.907803
- Title: Symbolic Discovery of Optimization Algorithms
- Title(参考訳): 最適化アルゴリズムの記号的発見
- Authors: Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao
Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, Yifeng Lu, Quoc V.
Le
- Abstract要約: 本稿では,プログラム探索として定式化し,深層ニューラルネットワーク学習のための最適化アルゴリズムの発見に応用する。
効率的な探索手法を利用して、無限小のプログラム空間を探索する。
本手法は,単純な最適化アルゴリズムである$textbfLion$$textitEvo$textbfL$ved S$textbfi$gn Mtextbfo$metextbfn$tum$。
- 参考スコア(独自算出の注目度): 132.62397077095787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to formulate algorithm discovery as program search, and
apply it to discover optimization algorithms for deep neural network training.
We leverage efficient search techniques to explore an infinite and sparse
program space. To bridge the large generalization gap between proxy and target
tasks, we also introduce program selection and simplification strategies. Our
method discovers a simple and effective optimization algorithm, $\textbf{Lion}$
($\textit{Evo$\textbf{L}$ved S$\textbf{i}$gn M$\textbf{o}$me$\textbf{n}$tum}$).
It is more memory-efficient than Adam as it only keeps track of the momentum.
Different from adaptive optimizers, its update has the same magnitude for each
parameter calculated through the sign operation. We compare Lion with widely
used optimizers, such as Adam and Adafactor, for training a variety of models
on different tasks. On image classification, Lion boosts the accuracy of ViT by
up to 2% on ImageNet and saves up to 5x the pre-training compute on JFT. On
vision-language contrastive learning, we achieve 88.3% $\textit{zero-shot}$ and
91.1% $\textit{fine-tuning}$ accuracy on ImageNet, surpassing the previous best
results by 2% and 0.1%, respectively. On diffusion models, Lion outperforms
Adam by achieving a better FID score and reducing the training compute by up to
2.3x. For autoregressive, masked language modeling, and fine-tuning, Lion
exhibits a similar or better performance compared to Adam. Our analysis of Lion
reveals that its performance gain grows with the training batch size. It also
requires a smaller learning rate than Adam due to the larger norm of the update
produced by the sign function. Additionally, we examine the limitations of Lion
and identify scenarios where its improvements are small or not statistically
significant. The implementation of Lion is publicly available.
- Abstract(参考訳): 本稿では,プログラム探索としてアルゴリズム探索を定式化し,ディープニューラルネットワーク学習のための最適化アルゴリズムを探索する手法を提案する。
我々は効率的な探索技術を利用して無限にスパースなプログラム空間を探索する。
プロキシとターゲットタスク間の大きな一般化ギャップを埋めるため,プログラム選択と単純化戦略も導入する。
この手法は、単純かつ効果的な最適化アルゴリズムである$\textbf{lion}$ (\textit{evo$\textbf{l}$ved s$\textbf{i}$gn m$\textbf{o}$me$\textbf{n}$tum}$) を発見する。
運動量だけを追跡するため、Adamよりもメモリ効率が高い。
適応オプティマイザと異なり、その更新は符号演算によって計算された各パラメータに対して同じ大きさである。
lionとadamやadafactorといった広く使われているオプティマイザを比較して,さまざまなタスクでさまざまなモデルをトレーニングします。
画像分類では、LionはImageNetでViTの精度を最大2%向上させ、JFTでトレーニング済みの計算の最大5倍節約する。
視覚言語比較学習では、imagenetで88.3%$\textit{zero-shot}$と91.1%$\textit{fine-tuning}$をそれぞれ2%と0.1%の精度で達成した。
拡散モデルにおいて、ライオンはより良いfidスコアを達成し、トレーニング計算を最大2.3倍削減することでアダムを上回る。
自動回帰、マスク付き言語モデリング、微調整では、LionはAdamと同じような、あるいは優れたパフォーマンスを示している。
Lionの分析では、トレーニングバッチサイズによってパフォーマンスが向上することが明らかになった。
また、符号関数によって生成された更新のノルムが大きいため、Adamよりも学習速度が小さい。
さらに,ライオンの限界を検証し,その改善が統計的に重要でない場合のシナリオを特定する。
lionの実装が公開されている。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。
本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文 参考訳(メタデータ) (2024-09-03T12:03:45Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - Neural Optimizer Equation, Decay Function, and Learning Rate Schedule Joint Evolution [0.0]
ディープラーニングモデルの品質に大きく貢献しているのが、Convの選択だ。
深層学習のプロセスを自動化するために,ニューラルサーチ(NOS)における新たな二重結合探索空間と整合性チェックを提案する。
画像分類タスク全体にわたって、Adamや他の標準的なディープラーニングよりも優れた、複数、学習率のスケジュール、そしてAdamの変種を見つけました。
論文 参考訳(メタデータ) (2024-04-10T02:00:24Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Lion Secretly Solves Constrained Optimization: As Lyapunov Predicts [8.393403749426097]
Lion(Evolved Sign Momentum)は、大規模なAIモデルのトレーニングにおいて有望な結果を示している。
これはAdamWと同等か好意的に機能するが、メモリ効率は向上する。
我々の分析は,ライオン更新のための新しいリャプノフ関数の開発によって可能となった。
論文 参考訳(メタデータ) (2023-10-09T17:41:29Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Differentially Private Image Classification from Features [53.75086935617644]
転送学習を活用することは、差分プライバシーを持つ大規模モデルのトレーニングに有効な戦略であることが示されている。
最近の研究によると、訓練済みモデルの最後の層だけをプライベートにトレーニングすることは、DPで最高のユーティリティを提供する。
論文 参考訳(メタデータ) (2022-11-24T04:04:20Z) - A contextual analysis of multi-layer perceptron models in classifying
hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。
基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2021-07-05T04:30:37Z) - TAdam: A Robust Stochastic Gradient Optimizer [6.973803123972298]
機械学習アルゴリズムは、特にロボット分野において、いくつかのノイズを含むかもしれない観察からパターンを見つけることを目的としている。
このようなノイズにうまく対処するためには、外乱を検知し、必要に応じて破棄できると期待している。
そこで本研究では,アルゴリズムに頑健性を直接組み込んだ勾配最適化手法を提案し,その中核となる概念として頑健な学生分布を用いた。
論文 参考訳(メタデータ) (2020-02-29T04:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。