Fugu-MT 論文翻訳(概要): Stochastic Two Points Method for Deep Model Zeroth-order Optimization

論文の概要: Stochastic Two Points Method for Deep Model Zeroth-order Optimization

arxiv url: http://arxiv.org/abs/2402.01621v1
Date: Fri, 2 Feb 2024 18:39:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 13:49:53.330133
Title: Stochastic Two Points Method for Deep Model Zeroth-order Optimization
Title（参考訳）: 深部モデルゼロ階最適化のための確率的2点法
Authors: Yijiang Pang, Jiayu Zhou
Abstract要約: 大規模言語モデルのような大規模な基礎モデルは、様々なアプリケーションシナリオにおいて非常によく機能している。ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全微調整は禁止される。本稿では,勾配自由状態下での効率的な2点(S2P)アプローチを提案する。
参考スコア（独自算出の注目度）: 38.346389006887236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large foundation models, such as large language models, have performed exceptionally well in various application scenarios. Building or fully fine-tuning such large models is usually prohibitive due to either hardware budget or lack of access to backpropagation. The zeroth-order methods offer a promising direction for tackling this challenge, where only forward passes are needed to update the model. This paper introduces an efficient Stochastic Two-Point (S2P) approach within the gradient-free regime. We present the theoretical convergence properties of S2P under the general and relaxed smoothness assumptions. The theoretical properties also shed light on a faster and more stable S2P variant, Accelerated S2P (AS2P), through exploiting our new convergence properties that better represent the dynamics of deep models in training. Our comprehensive empirical results show that AS2P is highly effective in optimizing objectives for large deep models, including language models, and outperforms standard methods across various model types and scales, with 2 $\times$ speed-up in training over most conducted tasks.
Abstract（参考訳）: 大きな言語モデルのような大きな基盤モデルは、様々なアプリケーションシナリオにおいて非常によく機能しています。ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全微調整は禁止される。ゼロ階法はこの課題に取り組む上で有望な方向を提供し、モデルの更新には前方通過のみが必要となる。本稿では, 勾配自由状態下での効率的な確率的2点(S2P)アプローチを提案する。一般および緩和された滑らか性仮定の下で、S2Pの理論収束性を示す。理論的性質は、より高速で安定なS2P変種であるAS2P(Accelerated S2P)にも光を当て、トレーニング中の深層モデルのダイナミクスをより良く表現する新しい収束特性を活用しました。総合的な実験結果から,as2pは言語モデルを含む大規模深層モデルの目標を最適化するのに非常に効果的であり,様々なモデルタイプやスケールで標準メソッドを上回っており,ほとんどのタスクに対して2ドルの$\times$ のトレーニングスピードアップが達成されている。

関連論文リスト

LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文参考訳（メタデータ） (2025-05-22T16:22:54Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods [4.028503203417233]
非微分可能報酬に対する離散拡散モデルを微調整するための、効率的で、広く適用でき、理論的に正当化されたポリシー勾配アルゴリズムを提案する。複数の離散的生成タスクに対する数値実験により,本手法のスケーラビリティと効率性を実証した。
論文参考訳（メタデータ） (2025-02-03T14:20:19Z)
Fast Solvers for Discrete Diffusion Models: Theory and Applications of High-Order Algorithms [31.42317398879432]
現在の推論アプローチは主に、正確なシミュレーションと$tau$-leapingのような近似メソッドの2つのカテゴリに分類される。本研究では,高次数値推論スキームの最初の拡張を離散拡散モデルに合わせることで,後者のカテゴリを推し進める。提案手法を厳密に解析し,KL分散における$theta$-trapezoidal法の2次精度を確立する。
論文参考訳（メタデータ） (2025-02-01T00:25:21Z)
Singular Value Scaling: Efficient Generative Model Compression via Pruned Weights Refinement [9.454314879815337]
生成モデルは、しばしば支配的な特異ベクトルを示し、微調整効率を阻害し、最適以下の性能をもたらす。 SVS(Singular Value Scaling, Singular Value Scaling, SVS)は, 両モデルタイプに適用可能な, プレナードウェイトを精製する多用途技術である。 SVSは、追加のトレーニングコストなしでモデルタイプ間の圧縮性能を改善する。
論文参考訳（メタデータ） (2024-12-23T08:40:08Z)
ELMGS: Enhancing memory and computation scaLability through coMpression for 3D Gaussian Splatting [16.373800112150573]
3Dモデルは最近、Neural Radiance Fieldsと3D Gaussian Splatting Modelによって提供されるエンドツーエンドトレーニングの可能性によって普及した。本稿では,そのようなモデルのメモリと計算のスケーラビリティを両立させる手法を提案する。一般的なベンチマークでは,提案手法の有効性を実証し,資源制約のあるデバイス上でも,そのようなソリューションの広範な展開可能性への道を開く。
論文参考訳（メタデータ） (2024-10-30T17:01:28Z)
Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks [24.935016443423233]
本研究では,機能的ホモトピー法と呼ばれる新しい最適化手法を提案する。一連の簡単な最適化問題を構築することにより、確立されたホモトピー法から導かれる原理を用いて、これらの問題を反復的に解決する。この手法を大規模言語モデル(LLM)に対するジェイルブレイク攻撃合成に適用し,既存の手法よりも20%～30%の精度向上を実現した。
論文参考訳（メタデータ） (2024-10-05T17:22:39Z)
Model Ensembling for Constrained Optimization [7.4351710906830375]
下流最適化に使用される多次元出力予測のためのモデルを組み立てたいという設定について検討する。より正確には、状態空間を多次元実数値予測にマッピングする多くのモデルが与えられていると想像する。これらの予測は、指定された制約の下で最適化したい線形対象の係数を形成する。証明可能かつ収束性の高い2つのアルゴリズムに導かれる多重校正手法を適用した。
論文参考訳（メタデータ） (2024-05-27T01:48:07Z)
Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。 LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。 LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文参考訳（メタデータ） (2024-03-11T05:35:38Z)
The Convex Landscape of Neural Networks: Characterizing Global Optima and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。本稿では,凸型神経回復モデルについて検討する。定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文参考訳（メタデータ） (2023-12-19T23:04:56Z)
DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。 DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文参考訳（メタデータ） (2023-06-28T16:07:36Z)
Human Trajectory Prediction via Neural Social Physics [63.62824628085961]
軌道予測は多くの分野において広く研究され、多くのモデルベースおよびモデルフリーな手法が研究されている。ニューラル微分方程式モデルに基づく新しい手法を提案する。我々の新しいモデル(ニューラル社会物理学またはNSP)は、学習可能なパラメータを持つ明示的な物理モデルを使用するディープニューラルネットワークである。
論文参考訳（メタデータ） (2022-07-21T12:11:18Z)
On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文参考訳（メタデータ） (2022-05-24T02:25:05Z)
Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文参考訳（メタデータ） (2022-02-03T00:05:08Z)
A Second look at Exponential and Cosine Step Sizes: Simplicity, Adaptivity, and Performance [23.89815527019194]
Gradient Descent(SGD)は、大規模な機械学習モデルで人気のあるツールである。ステップサイズの選択にもよるが、非常に可変である。ステップサイズを調整するための様々な戦略が提案されている。
論文参考訳（メタデータ） (2020-02-12T23:10:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。