論文の概要: ESSA: Evolutionary Strategies for Scalable Alignment
- arxiv url: http://arxiv.org/abs/2507.04453v1
- Date: Sun, 06 Jul 2025 16:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.18909
- Title: ESSA: Evolutionary Strategies for Scalable Alignment
- Title(参考訳): ESSA: スケーラブルなアライメントのための進化的戦略
- Authors: Daria Korotyshova, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, George Bredis, Alexey Gorbatovski, Viacheslav Sinii, Daniil Gavrilov,
- Abstract要約: 本稿では,進化的戦略(ES)を用いて大規模言語モデル(LLM)を効率的に整合させる新しいフレームワークであるESSAを紹介する。
ESは、高い並列化性、メモリ効率、スパース報酬に対する堅牢性、収束に必要なデータサンプルの少ないなど、LCMアライメントに適している。
我々はESを勾配に基づくアライメントに代わる有望でスケーラブルな代替品として確立し、大規模言語モデルの効率的な後学習の道を開いた。
- 参考スコア(独自算出の注目度): 2.589791058467358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly relying on alignment techniques to ensure that their outputs match human preferences. Although reinforcement learning from human feedback (RLHF) is the dominant approach, it has high computational costs, memory requirements, and training instability, particularly when scaling to larger models. This paper introduces ESSA (Evolutionary Strategies for Scalable Alignment), a new framework that uses Evolutionary Strategies (ES) to efficiently align LLMs without the need for gradient computation. ES is well-suited for LLM alignment due to its favorable properties, such as high parallelizability, memory efficiency, robustness to sparse rewards, and fewer data samples required for convergence, especially when starting from a strong pre-trained policy. Moreover, ES eliminates the need for extensive hyperparameter tuning, making the alignment process simpler and more stable. Although ES excels in low-dimensional optimization, it poses a challenge when applied to high-dimensional LLMs. To address this challenge, we propose a parameter-efficient architectural modification that reduces the dimensionality of optimization through low-rank adaptation. We evaluated our approach on mathematical reasoning tasks with verifiable accuracy-based metrics, demonstrating that ESSA converges faster and is more data efficient than gradient-based methods like Group Relative Policy Optimization (GRPO). Our findings establish ES as a promising and scalable alternative to gradient-based alignment, paving the way for efficient post-training of large language models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、出力が人間の好みに合うようにアライメント技術に依存している。
ヒューマンフィードバック(RLHF)からの強化学習が主流であるが、特に大規模モデルへのスケーリングにおいて、高い計算コスト、メモリ要件、トレーニング不安定性を有する。
本稿では,進化的戦略(Evolutionary Strategies for Scalable Alignment)を用いて,勾配計算を必要とせずにLLMを効率的に整列させる新しいフレームワークであるESSA(Evolutionary Strategies for Scalable Alignment)を紹介する。
ESは、高い並列化性、メモリ効率、スパース報酬に対する堅牢性、収束に必要なデータサンプルが少ないこと、特に強い事前訓練されたポリシーから始める場合など、LCMアライメントに適している。
さらに、ESは広範なハイパーパラメータチューニングの必要性を排除し、アライメントプロセスをよりシンプルに、より安定したものにする。
ESは低次元最適化に優れるが、高次元のLLMに適用すると課題となる。
この課題に対処するために、低ランク適応による最適化の次元性を低減するパラメータ効率のよいアーキテクチャ修正を提案する。
我々は,数理的推論タスクに対する検証精度に基づく評価を行い,グループ相対ポリシー最適化(GRPO)のような勾配に基づく手法よりも,ESSAの収束が速く,データ効率が高いことを示した。
我々はESを勾配に基づくアライメントに代わる有望でスケーラブルな代替品として確立し、大規模言語モデルの効率的な後学習の道を開いた。
関連論文リスト
- Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW [2.028622227373579]
勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。
本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
論文 参考訳(メタデータ) (2025-07-01T23:30:15Z) - AYLA: Amplifying Gradient Sensitivity via Loss Transformation in Non-Convex Optimization [0.0]
Gradient Descent (SGD)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では、動的トレーニングを強化する新しいフレームワークであるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM [13.180761892449736]
大規模言語モデル(LLM)のためのロバストパラメータ効率細調整法(PEFT)について検討する。
我々はAdam と Sharpness-Aware Minimization (SAM) を組み合わせた AdaZo-SAM という,計算効率のよい新しいフレームワークを提案する。
また,AdaZo-SAMのメモリ効率向上版であるLORENZAという低ランク勾配最適化手法を設計した。
論文 参考訳(メタデータ) (2025-02-26T21:30:34Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - Constrain Alignment with Sparse Autoencoders [47.15096507230884]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。