論文の概要: Stochastic Two Points Method for Deep Model Zeroth-order Optimization
- arxiv url: http://arxiv.org/abs/2402.01621v1
- Date: Fri, 2 Feb 2024 18:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 13:49:53.330133
- Title: Stochastic Two Points Method for Deep Model Zeroth-order Optimization
- Title(参考訳): 深部モデルゼロ階最適化のための確率的2点法
- Authors: Yijiang Pang, Jiayu Zhou
- Abstract要約: 大規模言語モデルのような大規模な基礎モデルは、様々なアプリケーションシナリオにおいて非常によく機能している。
ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全微調整は禁止される。
本稿では,勾配自由状態下での効率的な2点(S2P)アプローチを提案する。
- 参考スコア(独自算出の注目度): 38.346389006887236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large foundation models, such as large language models, have performed
exceptionally well in various application scenarios. Building or fully
fine-tuning such large models is usually prohibitive due to either hardware
budget or lack of access to backpropagation. The zeroth-order methods offer a
promising direction for tackling this challenge, where only forward passes are
needed to update the model. This paper introduces an efficient Stochastic
Two-Point (S2P) approach within the gradient-free regime. We present the
theoretical convergence properties of S2P under the general and relaxed
smoothness assumptions. The theoretical properties also shed light on a faster
and more stable S2P variant, Accelerated S2P (AS2P), through exploiting our new
convergence properties that better represent the dynamics of deep models in
training. Our comprehensive empirical results show that AS2P is highly
effective in optimizing objectives for large deep models, including language
models, and outperforms standard methods across various model types and scales,
with 2 $\times$ speed-up in training over most conducted tasks.
- Abstract(参考訳): 大きな言語モデルのような大きな基盤モデルは、様々なアプリケーションシナリオにおいて非常によく機能しています。
ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全微調整は禁止される。
ゼロ階法はこの課題に取り組む上で有望な方向を提供し、モデルの更新には前方通過のみが必要となる。
本稿では, 勾配自由状態下での効率的な確率的2点(S2P)アプローチを提案する。
一般および緩和された滑らか性仮定の下で、S2Pの理論収束性を示す。
理論的性質は、より高速で安定なS2P変種であるAS2P(Accelerated S2P)にも光を当て、トレーニング中の深層モデルのダイナミクスをより良く表現する新しい収束特性を活用しました。
総合的な実験結果から,as2pは言語モデルを含む大規模深層モデルの目標を最適化するのに非常に効果的であり,様々なモデルタイプやスケールで標準メソッドを上回っており,ほとんどのタスクに対して2ドルの$\times$ のトレーニングスピードアップが達成されている。
関連論文リスト
- ELMGS: Enhancing memory and computation scaLability through coMpression for 3D Gaussian Splatting [16.373800112150573]
3Dモデルは最近、Neural Radiance Fieldsと3D Gaussian Splatting Modelによって提供されるエンドツーエンドトレーニングの可能性によって普及した。
本稿では,そのようなモデルのメモリと計算のスケーラビリティを両立させる手法を提案する。
一般的なベンチマークでは,提案手法の有効性を実証し,資源制約のあるデバイス上でも,そのようなソリューションの広範な展開可能性への道を開く。
論文 参考訳(メタデータ) (2024-10-30T17:01:28Z) - Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks [24.935016443423233]
本研究では,機能的ホモトピー法と呼ばれる新しい最適化手法を提案する。
一連の簡単な最適化問題を構築することにより、確立されたホモトピー法から導かれる原理を用いて、これらの問題を反復的に解決する。
この手法を大規模言語モデル(LLM)に対するジェイルブレイク攻撃合成に適用し,既存の手法よりも20%~30%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-10-05T17:22:39Z) - Model Ensembling for Constrained Optimization [7.4351710906830375]
下流最適化に使用される多次元出力予測のためのモデルを組み立てたいという設定について検討する。
より正確には、状態空間を多次元実数値予測にマッピングする多くのモデルが与えられていると想像する。
これらの予測は、指定された制約の下で最適化したい線形対象の係数を形成する。
証明可能かつ収束性の高い2つのアルゴリズムに導かれる多重校正手法を適用した。
論文 参考訳(メタデータ) (2024-05-27T01:48:07Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。
私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。
DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文 参考訳(メタデータ) (2023-06-28T16:07:36Z) - Human Trajectory Prediction via Neural Social Physics [63.62824628085961]
軌道予測は多くの分野において広く研究され、多くのモデルベースおよびモデルフリーな手法が研究されている。
ニューラル微分方程式モデルに基づく新しい手法を提案する。
我々の新しいモデル(ニューラル社会物理学またはNSP)は、学習可能なパラメータを持つ明示的な物理モデルを使用するディープニューラルネットワークである。
論文 参考訳(メタデータ) (2022-07-21T12:11:18Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。
ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。
本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文 参考訳(メタデータ) (2022-02-03T00:05:08Z) - A Second look at Exponential and Cosine Step Sizes: Simplicity,
Adaptivity, and Performance [23.89815527019194]
Gradient Descent(SGD)は、大規模な機械学習モデルで人気のあるツールである。
ステップサイズの選択にもよるが、非常に可変である。
ステップサイズを調整するための様々な戦略が提案されている。
論文 参考訳(メタデータ) (2020-02-12T23:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。