論文の概要: ESSA: Evolutionary Strategies for Scalable Alignment
- arxiv url: http://arxiv.org/abs/2507.04453v1
- Date: Sun, 06 Jul 2025 16:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.18909
- Title: ESSA: Evolutionary Strategies for Scalable Alignment
- Title(参考訳): ESSA: スケーラブルなアライメントのための進化的戦略
- Authors: Daria Korotyshova, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, George Bredis, Alexey Gorbatovski, Viacheslav Sinii, Daniil Gavrilov,
- Abstract要約: 本稿では,進化的戦略(ES)を用いて大規模言語モデル(LLM)を効率的に整合させる新しいフレームワークであるESSAを紹介する。
ESは、高い並列化性、メモリ効率、スパース報酬に対する堅牢性、収束に必要なデータサンプルの少ないなど、LCMアライメントに適している。
我々はESを勾配に基づくアライメントに代わる有望でスケーラブルな代替品として確立し、大規模言語モデルの効率的な後学習の道を開いた。
- 参考スコア(独自算出の注目度): 2.589791058467358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly relying on alignment techniques to ensure that their outputs match human preferences. Although reinforcement learning from human feedback (RLHF) is the dominant approach, it has high computational costs, memory requirements, and training instability, particularly when scaling to larger models. This paper introduces ESSA (Evolutionary Strategies for Scalable Alignment), a new framework that uses Evolutionary Strategies (ES) to efficiently align LLMs without the need for gradient computation. ES is well-suited for LLM alignment due to its favorable properties, such as high parallelizability, memory efficiency, robustness to sparse rewards, and fewer data samples required for convergence, especially when starting from a strong pre-trained policy. Moreover, ES eliminates the need for extensive hyperparameter tuning, making the alignment process simpler and more stable. Although ES excels in low-dimensional optimization, it poses a challenge when applied to high-dimensional LLMs. To address this challenge, we propose a parameter-efficient architectural modification that reduces the dimensionality of optimization through low-rank adaptation. We evaluated our approach on mathematical reasoning tasks with verifiable accuracy-based metrics, demonstrating that ESSA converges faster and is more data efficient than gradient-based methods like Group Relative Policy Optimization (GRPO). Our findings establish ES as a promising and scalable alternative to gradient-based alignment, paving the way for efficient post-training of large language models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、出力が人間の好みに合うようにアライメント技術に依存している。
ヒューマンフィードバック(RLHF)からの強化学習が主流であるが、特に大規模モデルへのスケーリングにおいて、高い計算コスト、メモリ要件、トレーニング不安定性を有する。
本稿では,進化的戦略(Evolutionary Strategies for Scalable Alignment)を用いて,勾配計算を必要とせずにLLMを効率的に整列させる新しいフレームワークであるESSA(Evolutionary Strategies for Scalable Alignment)を紹介する。
ESは、高い並列化性、メモリ効率、スパース報酬に対する堅牢性、収束に必要なデータサンプルが少ないこと、特に強い事前訓練されたポリシーから始める場合など、LCMアライメントに適している。
さらに、ESは広範なハイパーパラメータチューニングの必要性を排除し、アライメントプロセスをよりシンプルに、より安定したものにする。
ESは低次元最適化に優れるが、高次元のLLMに適用すると課題となる。
この課題に対処するために、低ランク適応による最適化の次元性を低減するパラメータ効率のよいアーキテクチャ修正を提案する。
我々は,数理的推論タスクに対する検証精度に基づく評価を行い,グループ相対ポリシー最適化(GRPO)のような勾配に基づく手法よりも,ESSAの収束が速く,データ効率が高いことを示した。
我々はESを勾配に基づくアライメントに代わる有望でスケーラブルな代替品として確立し、大規模言語モデルの効率的な後学習の道を開いた。
関連論文リスト
- Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning [3.259050650999544]
Group-Based Mirror Policy Optimization (GBMPO)は、グループベースのポリシー最適化をフレキシブルなBregman分散に拡張するフレームワークである。
ハンドデザインのProbL2-GRPOは86.7%の精度でDr. GRPOベースラインよりも5.5ポイント向上している。
論文 参考訳(メタデータ) (2026-02-04T10:01:20Z) - Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Tri-Accel: Curvature-Aware Precision-Adaptive and Memory-Elastic Optimization for Efficient GPU Usage [0.6511750267058007]
Tri-Accelは3つのアクセラレーション戦略と、トレーニング中の適応パラメータを併用する統合最適化フレームワークである。
ResNet-18とEfficientNet-B0を搭載したCIFAR-10では、Tri-Accelはトレーニング時間の最大9.9%削減とメモリ使用量の13.3%削減を実現している。
静的混合精度トレーニングと比較して、Tri-Accelは78.1%の精度を維持し、標準ハードウェアのメモリフットプリントを0.35GBから0.31GBに削減している。
論文 参考訳(メタデータ) (2025-08-23T05:38:42Z) - Hybrid and Unitary Fine-Tuning of Large Language Models: Methods and Benchmarking under Resource Constraints [0.0]
微調整された大規模言語モデル(LLM)は、スケールとメモリ要求のため、計算上のボトルネックのままである。
本稿では,LoRA,BOFT,LoRA-GA,uRNNなどのパラメータ効率向上技術について包括的な評価を行った。
勾配ノルムで導かれる階層ごとの適応的な更新を演算することにより、ハイブリッド法は様々なタスクにまたがる収束効率と一般化を向上する。
論文 参考訳(メタデータ) (2025-07-24T04:00:02Z) - Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW [2.028622227373579]
勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。
本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
論文 参考訳(メタデータ) (2025-07-01T23:30:15Z) - Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。
SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文 参考訳(メタデータ) (2025-06-01T15:30:37Z) - LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models [95.77351099118323]
Masked Diffusion Models (MDM) は言語モデリングにおいて有望なパラダイムである。
この課題は、優先最適化に必要なエビデンス・ロウアー・バウンド(ELBO)に基づく推定値の高分散から生じる。
本稿では,ELBO推定器の偏差を公式に解析し,優先最適化勾配の偏差と偏差を導出するフレームワークであるVRPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T16:36:20Z) - KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning [15.81250204481401]
本稿では,勾配推定バイアスの軽減を目的としたカーネル関数ベースのZOフレームワークを提案する。
KerZOOは既存のZOベースラインと同等または優れたパフォーマンスを実現している。
本稿では,カーネル関数がZO法における推定バイアスの低減に有効な方法であることを示す。
論文 参考訳(メタデータ) (2025-05-24T21:56:03Z) - AYLA: Amplifying Gradient Sensitivity via Loss Transformation in Non-Convex Optimization [0.0]
Gradient Descent (SGD)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では、動的トレーニングを強化する新しいフレームワークであるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM [13.180761892449736]
大規模言語モデル(LLM)のためのロバストパラメータ効率細調整法(PEFT)について検討する。
我々はAdam と Sharpness-Aware Minimization (SAM) を組み合わせた AdaZo-SAM という,計算効率のよい新しいフレームワークを提案する。
また,AdaZo-SAMのメモリ効率向上版であるLORENZAという低ランク勾配最適化手法を設計した。
論文 参考訳(メタデータ) (2025-02-26T21:30:34Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - Gradient Multi-Normalization for Stateless and Scalable LLM Training [16.037614012166063]
大規模言語モデル(LLM)のトレーニングは通常、コンバージェンスを加速するために追加のステート情報を格納するAdamのようなアダプティブに依存している。
SWAN (Ma et al., 2024) のような最近の取り組みは、状態の必要性を排除し、瞬時勾配に適用したマルチステップ前処理手順により、Adamに匹敵する性能を達成することでこの問題に対処している。
複数の基準に従って勾配を正規化するステートレス勾配を設計するための新しいフレームワークを導入する。最大10億のパラメータを持つ事前学習LLaMAモデルの実験は、Adamよりも3倍のスピードアップを示し、メモリ要求を大幅に削減し、他のメモリ効率のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-10T18:09:53Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [48.55966021231297]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - Constrain Alignment with Sparse Autoencoders [47.15096507230884]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Towards Explainable Evolution Strategies with Large Language Models [0.0]
本稿では,自己適応的進化戦略(ES)と大規模言語モデル(LLM)を統合するアプローチを提案する。
再起動機構を備えた自己適応型ESを用いることで、ベンチマーク関数の難易度を効果的にナビゲートする。
LLMを使用してこれらのログを処理し、簡潔でユーザフレンドリーな要約を生成する。
論文 参考訳(メタデータ) (2024-07-11T09:28:27Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。