論文の概要: Evolution Strategies at the Hyperscale
- arxiv url: http://arxiv.org/abs/2511.16652v1
- Date: Thu, 20 Nov 2025 18:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.798066
- Title: Evolution Strategies at the Hyperscale
- Title(参考訳): ハイパースケールにおける進化戦略
- Authors: Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, Alistair Letcher, Antonio León Villares, Anya Sims, Dylan Cope, Jarek Liesen, Lukas Seier, Theo Wolf, Uljad Berdica, Alexander David Goldie, Aaron Courville, Karin Sevegnani, Shimon Whiteson, Jakob Nicolaus Foerster,
- Abstract要約: 本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
- 参考スコア(独自算出の注目度): 57.75314521465674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Evolution Guided General Optimization via Low-rank Learning (EGGROLL), an evolution strategies (ES) algorithm designed to scale backprop-free optimization to large population sizes for modern large neural network architectures with billions of parameters. ES is a set of powerful blackbox optimisation methods that can handle non-differentiable or noisy objectives with excellent scaling potential through parallelisation. Na{ï}ve ES becomes prohibitively expensive at scale due to the computational and memory costs associated with generating matrix perturbations $E\in\mathbb{R}^{m\times n}$ and the batched matrix multiplications needed to compute per-member forward passes. EGGROLL overcomes these bottlenecks by generating random matrices $A\in \mathbb{R}^{m\times r},\ B\in \mathbb{R}^{n\times r}$ with $r\ll \min(m,n)$ to form a low-rank matrix perturbation $A B^\top$ that are used in place of the full-rank perturbation $E$. As the overall update is an average across a population of $N$ workers, this still results in a high-rank update but with significant memory and computation savings, reducing the auxiliary storage from $mn$ to $r(m+n)$ per layer and the cost of a forward pass from $\mathcal{O}(mn)$ to $\mathcal{O}(r(m+n))$ when compared to full-rank ES. A theoretical analysis reveals our low-rank update converges to the full-rank update at a fast $\mathcal{O}\left(\frac{1}{r}\right)$ rate. Our experiments show that (1) EGGROLL does not compromise the performance of ES in tabula-rasa RL settings, despite being faster, (2) it is competitive with GRPO as a technique for improving LLM reasoning, and (3) EGGROLL enables stable pre-training of nonlinear recurrent language models that operate purely in integer datatypes.
- Abstract(参考訳): 低ランク学習による進化誘導一般最適化(EGGROLL)は、数十億のパラメータを持つ現代の大規模ニューラルネットワークアーキテクチャにおいて、バックプロップフリーな最適化を大規模に拡張するために設計された進化戦略(ES)アルゴリズムである。
ESは、非微分可能またはノイズの多い目的を並列化によって優れたスケーリングポテンシャルで処理できる、強力なブラックボックス最適化手法のセットである。
行列摂動の生成に伴う計算コストとメモリコストが$E\in\mathbb{R}^{m\times n}$と、メンバごとのフォワードパスを計算するのに必要なバッチ行列乗算によって、Na{a}ve ESは大規模では非常に高価になる。
EGGROLLはこれらのボトルネックを克服し、ランダム行列を$A\in \mathbb{R}^{m\times r},\ B\in \mathbb{R}^{n\times r}$と$r\ll \min(m,n)$で生成する。
全体的な更新は、N$ワーカーの集団の平均であり、これは依然としてハイランクな更新であるが、メモリと計算の大幅な節約、補助ストレージを$mn$から$r(m+n)$に削減し、フルランクESと比較して$\mathcal{O}(mn)$から$\mathcal{O}(r(m+n))$に転送するコストを下げる。
理論的解析により、我々の低ランク更新は高速な$\mathcal{O}\left(\frac{1}{r}\right)$レートでフルランク更新に収束することが明らかになった。
実験の結果,(1) EGGROLLは高速であるにもかかわらず,表層ラザRL設定におけるESの性能を損なわないこと,(2) LLM推論を改善する技術としてGRPOと競合すること,(3) EGGROLLは整数データ型で純粋に動作する非線形リカレント言語モデルの安定した事前学習を可能にすること,などが示されている。
関連論文リスト
- Scalable LinUCB: Low-Rank Design Matrix Updates for Recommenders with Large Action Spaces [6.9187437863525645]
特にLinUCBはリコメンデータシステムで広く使われている。
本稿では,逆正規化設計行列を用いた高速かつメモリ効率の高い演算を実現するアルゴリズムであるScalable LinUCBを紹介する。
提案アルゴリズムの有効性を,レコメンデータシステムデータセットで実証した。
論文 参考訳(メタデータ) (2025-10-22T08:17:42Z) - VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence [6.574641780732972]
大規模非問題はディープラーニングでは一般的である。
ファーストオーダー(FO)は今日のベースラインとして機能する。
ZOアルゴリズムは計算量とメモリコストを減らす。
VAMOは、より少ない動的メモリ要求でこれらのゲインを達成する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。
当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文 参考訳(メタデータ) (2024-11-12T14:41:07Z) - Globally Convergent Accelerated Algorithms for Multilinear Sparse
Logistic Regression with $\ell_0$-constraints [2.323238724742687]
多重線形ロジスティック回帰は多次元データ解析の強力なツールである。
本稿では,$ell_0$-MLSRを解くために,アクセラレーションされた近位置換最小値MLSRモデルを提案する。
また、APALM$+$が一階臨界点に大域収束し、クルディ・ロジャシエヴィチ性質を用いて収束を確立することも示している。
論文 参考訳(メタデータ) (2023-09-17T11:05:08Z) - From CNNs to Shift-Invariant Twin Models Based on Complex Wavelets [7.812210699650151]
我々は第1層の組み合わせを "real-valued convolutions + max pooling" に置き換える。
我々は、CModとRMaxが、畳み込みカーネルが帯域通過で向き付けられたときに、同等の出力を生成すると主張している。
提案手法は,ImageNetとCIFAR-10の分類タスクにおいて,優れた精度を実現する。
論文 参考訳(メタデータ) (2022-12-01T09:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。