論文の概要: Stochastic Two Points Method for Deep Model Zeroth-order Optimization
- arxiv url: http://arxiv.org/abs/2402.01621v1
- Date: Fri, 2 Feb 2024 18:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 13:49:53.330133
- Title: Stochastic Two Points Method for Deep Model Zeroth-order Optimization
- Title(参考訳): 深部モデルゼロ階最適化のための確率的2点法
- Authors: Yijiang Pang, Jiayu Zhou
- Abstract要約: 大規模言語モデルのような大規模な基礎モデルは、様々なアプリケーションシナリオにおいて非常によく機能している。
ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全微調整は禁止される。
本稿では,勾配自由状態下での効率的な2点(S2P)アプローチを提案する。
- 参考スコア(独自算出の注目度): 38.346389006887236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large foundation models, such as large language models, have performed
exceptionally well in various application scenarios. Building or fully
fine-tuning such large models is usually prohibitive due to either hardware
budget or lack of access to backpropagation. The zeroth-order methods offer a
promising direction for tackling this challenge, where only forward passes are
needed to update the model. This paper introduces an efficient Stochastic
Two-Point (S2P) approach within the gradient-free regime. We present the
theoretical convergence properties of S2P under the general and relaxed
smoothness assumptions. The theoretical properties also shed light on a faster
and more stable S2P variant, Accelerated S2P (AS2P), through exploiting our new
convergence properties that better represent the dynamics of deep models in
training. Our comprehensive empirical results show that AS2P is highly
effective in optimizing objectives for large deep models, including language
models, and outperforms standard methods across various model types and scales,
with 2 $\times$ speed-up in training over most conducted tasks.
- Abstract(参考訳): 大きな言語モデルのような大きな基盤モデルは、様々なアプリケーションシナリオにおいて非常によく機能しています。
ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全微調整は禁止される。
ゼロ階法はこの課題に取り組む上で有望な方向を提供し、モデルの更新には前方通過のみが必要となる。
本稿では, 勾配自由状態下での効率的な確率的2点(S2P)アプローチを提案する。
一般および緩和された滑らか性仮定の下で、S2Pの理論収束性を示す。
理論的性質は、より高速で安定なS2P変種であるAS2P(Accelerated S2P)にも光を当て、トレーニング中の深層モデルのダイナミクスをより良く表現する新しい収束特性を活用しました。
総合的な実験結果から,as2pは言語モデルを含む大規模深層モデルの目標を最適化するのに非常に効果的であり,様々なモデルタイプやスケールで標準メソッドを上回っており,ほとんどのタスクに対して2ドルの$\times$ のトレーニングスピードアップが達成されている。
関連論文リスト
- Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - A Two-Scale Complexity Measure for Deep Learning Models [2.7446241148152257]
有効次元に基づく統計モデルのための新しいキャパシティ尺度2sEDを導入する。
新しい量は、モデル上の軽度の仮定の下で一般化誤差を証明的に有界にする。
標準データセットと一般的なモデルアーキテクチャのシミュレーションは、2sEDがトレーニングエラーとよく相関していることを示している。
論文 参考訳(メタデータ) (2024-01-17T12:50:50Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。
ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。
本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文 参考訳(メタデータ) (2022-02-03T00:05:08Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Optimized ensemble deep learning framework for scalable forecasting of
dynamics containing extreme events [0.0]
2つの機械学習技術は、モデルの精度、安定性、スケーラビリティを相乗的に改善し、ダイナミクスの予測において新しい応用の波を促すために共同で使用される。
フィードフォワードニューラルネットワーク、貯水池コンピューティング、長期記憶の最良の凸結合に基づくOEDLモデルは、極端な事象からなるダイナミクスの予測を前進させる上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-06-09T10:59:41Z) - A Second look at Exponential and Cosine Step Sizes: Simplicity,
Adaptivity, and Performance [23.89815527019194]
Gradient Descent(SGD)は、大規模な機械学習モデルで人気のあるツールである。
ステップサイズの選択にもよるが、非常に可変である。
ステップサイズを調整するための様々な戦略が提案されている。
論文 参考訳(メタデータ) (2020-02-12T23:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。