論文の概要: Stochastic Two Points Method for Deep Model Zeroth-order Optimization
- arxiv url: http://arxiv.org/abs/2402.01621v2
- Date: Thu, 23 May 2024 00:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 07:19:21.818341
- Title: Stochastic Two Points Method for Deep Model Zeroth-order Optimization
- Title(参考訳): 深部モデルゼロ階最適化のための確率的2点法
- Authors: Yijiang Pang, Jiayu Zhou,
- Abstract要約: 本稿では,勾配自由状態下での効率的な2点(S2P)アプローチを提案する。
一般および緩和された滑らか性仮定の下で、S2Pの理論収束性を示す。
我々は、VS2Pが深層モデルの目的を最適化するのに非常に効果的であることを示す。
- 参考スコア(独自算出の注目度): 32.459322001738144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large foundation models, such as large language models, have performed exceptionally well in various application scenarios. Building or fully fine-tuning such large models is usually prohibitive due to either hardware budget or lack of access to backpropagation. The zeroth-order methods offer a promising direction for tackling this challenge, where only forward passes are needed to update the model. This paper introduces an efficient Stochastic Two-Point (S2P) approach within the gradient-free regime. We present the theoretical convergence properties of S2P under the general and relaxed smoothness assumptions, and the derived results help understand and inherently connect the two popular types of zeroth-order methods, basic random search and stochastic three-point method. The theoretical properties also shed light on a Variant of S2P (VS2P), through exploiting our new convergence properties that better represent the dynamics of deep models in training. Our comprehensive empirical results show that VS2P is highly effective in optimizing objectives for deep models. It outperforms or achieves competitive performance compared to standard methods across various model types and scales.
- Abstract(参考訳): 大規模言語モデルのような大規模な基礎モデルは、様々なアプリケーションシナリオにおいて非常によく機能している。
ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全な微調整は禁止される。
ゼロ階法はこの課題に取り組む上で有望な方向を提供し、モデルの更新には前方通過のみが必要となる。
本稿では, 勾配自由状態下での効率的な確率的2点(S2P)アプローチを提案する。
本稿では,S2Pの理論収束特性を一般の滑らかさ仮定の下で提示し,その導出結果は,2つの一般的なゼロ階法,基本ランダム探索法,確率的3点法を理解するのに有効である。
理論的性質はS2P(VS2P)のヴァリアントにも光を当て、トレーニングにおける深層モデルのダイナミクスをより良く表現する新しい収束特性を利用する。
我々の総合的な実験結果から、VS2Pは深層モデルの目的を最適化するのに非常に有効であることが示された。
さまざまなモデルタイプやスケールの標準メソッドと比較して、パフォーマンスが優れています。
関連論文リスト
- Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods [4.028503203417233]
非微分可能報酬に対する離散拡散モデルを微調整するための、効率的で、広く適用でき、理論的に正当化されたポリシー勾配アルゴリズムを提案する。
複数の離散的生成タスクに対する数値実験により,本手法のスケーラビリティと効率性を実証した。
論文 参考訳(メタデータ) (2025-02-03T14:20:19Z) - Fast Solvers for Discrete Diffusion Models: Theory and Applications of High-Order Algorithms [31.42317398879432]
現在の推論アプローチは主に、正確なシミュレーションと$tau$-leapingのような近似メソッドの2つのカテゴリに分類される。
本研究では,高次数値推論スキームの最初の拡張を離散拡散モデルに合わせることで,後者のカテゴリを推し進める。
提案手法を厳密に解析し,KL分散における$theta$-trapezoidal法の2次精度を確立する。
論文 参考訳(メタデータ) (2025-02-01T00:25:21Z) - Singular Value Scaling: Efficient Generative Model Compression via Pruned Weights Refinement [9.454314879815337]
生成モデルは、しばしば支配的な特異ベクトルを示し、微調整効率を阻害し、最適以下の性能をもたらす。
SVS(Singular Value Scaling, Singular Value Scaling, SVS)は, 両モデルタイプに適用可能な, プレナードウェイトを精製する多用途技術である。
SVSは、追加のトレーニングコストなしでモデルタイプ間の圧縮性能を改善する。
論文 参考訳(メタデータ) (2024-12-23T08:40:08Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。
私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。
DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文 参考訳(メタデータ) (2023-06-28T16:07:36Z) - Human Trajectory Prediction via Neural Social Physics [63.62824628085961]
軌道予測は多くの分野において広く研究され、多くのモデルベースおよびモデルフリーな手法が研究されている。
ニューラル微分方程式モデルに基づく新しい手法を提案する。
我々の新しいモデル(ニューラル社会物理学またはNSP)は、学習可能なパラメータを持つ明示的な物理モデルを使用するディープニューラルネットワークである。
論文 参考訳(メタデータ) (2022-07-21T12:11:18Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。
ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。
本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文 参考訳(メタデータ) (2022-02-03T00:05:08Z) - A Second look at Exponential and Cosine Step Sizes: Simplicity,
Adaptivity, and Performance [23.89815527019194]
Gradient Descent(SGD)は、大規模な機械学習モデルで人気のあるツールである。
ステップサイズの選択にもよるが、非常に可変である。
ステップサイズを調整するための様々な戦略が提案されている。
論文 参考訳(メタデータ) (2020-02-12T23:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。