論文の概要: EA4LLM: A Gradient-Free Approach to Large Language Model Optimization via Evolutionary Algorithms
- arxiv url: http://arxiv.org/abs/2510.10603v2
- Date: Thu, 23 Oct 2025 04:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.218111
- Title: EA4LLM: A Gradient-Free Approach to Large Language Model Optimization via Evolutionary Algorithms
- Title(参考訳): EA4LLM:進化的アルゴリズムによる大規模言語モデル最適化へのグラディエントフリーアプローチ
- Authors: WenTao Liu, Siyu Song, Hao Hao, Aimin Zhou,
- Abstract要約: 大規模言語モデル(LLM)を最適化する進化的アルゴリズムEA4LLMを提案する。
我々は、0.5Bから32Bまでのモデルサイズにわたる事前学習段階から完全なパラメータ最適化を実証的に検証した。
我々の研究は、勾配に基づく最適化がニューラルネットワークをトレーニングするための唯一実行可能なアプローチであるという一般的な仮定に挑戦している。
- 参考スコア(独自算出の注目度): 23.009274904878065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (LLMs) have made remarkable progress, with model optimization primarily relying on gradient-based optimizers such as Adam. However, these gradient-based methods impose stringent hardware requirements, demanding high-concurrency, high-memory GPUs. Moreover, they require all neural network operations to be differentiable, thereby excluding many promising non-differentiable architectures from practical use. To address these limitations, we propose EA4LLM, an evolutionary algorithm for optimizing LLMs, and, for the first time, empirically verify full-parameter optimization from the pretraining stage across model sizes ranging from 0.5B to 32B. We conduct extensive experiments and provide key insights into how evolutionary algorithms can effectively optimize neural networks. Our work challenges the prevailing assumption that gradient-based optimization is the only viable approach for training neural networks. It also holds significant potential to reduce the computational cost of training large language models, thereby enabling groups with limited computational resources to participate in deep learning research.
- Abstract(参考訳): 近年、大規模言語モデル(LLM)は顕著な進歩を遂げており、モデル最適化は主にAdamのような勾配に基づく最適化に頼っている。
しかし、これらの勾配に基づく手法はハードウェアの厳しい要件を課し、高速で高メモリのGPUを必要とする。
さらに、それらは全てのニューラルネットワーク操作を微分可能とし、多くの有望な非微分可能なアーキテクチャを実用的な使用から除外する。
これらの制約に対処するため,LLMを最適化するための進化的アルゴリズムであるEA4LLMを提案し,0.5Bから32Bまでのモデルサイズで事前学習段階から全パラメータ最適化を実証的に検証した。
我々は広範な実験を行い、進化的アルゴリズムがニューラルネットワークを効果的に最適化する方法について重要な洞察を提供する。
我々の研究は、勾配に基づく最適化がニューラルネットワークをトレーニングするための唯一実行可能なアプローチであるという一般的な仮定に挑戦している。
また、大きな言語モデルを訓練する際の計算コストを削減し、限られた計算資源を持つグループがディープラーニング研究に参加できるようにする大きな可能性を秘めている。
関連論文リスト
- Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics [13.621560002904873]
Learnable SMPLifyは、SMPLifyの反復フィッティングプロセスをシングルパス回帰モデルに置き換えるニューラルネットワークフレームワークである。
SMPLifyに比べて200倍近く高速なランタイムを実現し、3DPWやRICHによく対応し、LucidActionのプラグインツールとして使用する場合、モデルに依存しない方法として動作する。
論文 参考訳(メタデータ) (2025-08-19T06:53:57Z) - Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - EvoPruneDeepTL: An Evolutionary Pruning Model for Transfer Learning
based Deep Neural Networks [15.29595828816055]
本稿では,トランスファーラーニングに基づくディープニューラルネットワークのための進化的プルーニングモデルを提案する。
EvoPruneDeepTLは、最後の完全に接続されたレイヤを遺伝的アルゴリズムによって最適化されたスパースレイヤで置き換える。
その結果,ネットワーク全体の計算効率に対するEvoPruneDeepTLと特徴選択の寄与が示された。
論文 参考訳(メタデータ) (2022-02-08T13:07:55Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Enhanced data efficiency using deep neural networks and Gaussian
processes for aerodynamic design optimization [0.0]
随伴型最適化法は空気力学的形状設計において魅力的である。
複数の最適化問題が解決されている場合、それらは違法に高価になる可能性がある。
本稿では,高コストな随伴解法に取って代わる機械学習を実現するサロゲートベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T15:09:21Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。