論文の概要: EA4LLM: A Gradient-Free Approach to Large Language Model Optimization via Evolutionary Algorithms
- arxiv url: http://arxiv.org/abs/2510.10603v1
- Date: Sun, 12 Oct 2025 13:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.026664
- Title: EA4LLM: A Gradient-Free Approach to Large Language Model Optimization via Evolutionary Algorithms
- Title(参考訳): EA4LLM:進化的アルゴリズムによる大規模言語モデル最適化へのグラディエントフリーアプローチ
- Authors: WenTao Liu, Siyu Song, Hao Hao, Aimin Zhou,
- Abstract要約: 進化的アルゴリズム(EA4LLM)を用いた大規模言語モデル(LLM)の最適化手法を提案する。
1-ビリオンパラメータ LLM を事前学習段階からトレーニングする能力を初めて実証した。
我々の研究は、勾配に基づく最適化がニューラルネットワークをトレーニングするための唯一実行可能なアプローチであるという一般的な仮定に挑戦している。
- 参考スコア(独自算出の注目度): 23.009274904878065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (LLMs) have made remarkable progress, with model optimization primarily relying on gradient-based optimizers such as Adam. However, these gradient-based methods impose stringent hardware requirements, demanding high-concurrency, high-memory GPUs. Moreover, they require all neural network operations to be differentiable, thereby excluding many promising non-differentiable architectures from practical use. To address these limitations, we propose a method for optimizing LLMs using evolutionary algorithms (EA4LLM) and, for the first time, successfully demonstrate its capability to train a 1-billion-parameter LLM from the pre-trained stage. We conduct extensive experiments and provide key insights into how evolutionary algorithms can effectively optimize neural networks. Our work challenges the prevailing assumption that gradient-based optimization is the only viable approach for training neural networks. It also holds significant potential to reduce the computational cost of training large language models, thereby enabling groups with limited computational resources to participate in deep learning research.
- Abstract(参考訳): 近年、大規模言語モデル(LLM)は顕著な進歩を遂げており、モデル最適化は主にAdamのような勾配に基づく最適化に頼っている。
しかし、これらの勾配に基づく手法はハードウェアの厳しい要件を課し、高速で高メモリのGPUを必要とする。
さらに、それらは全てのニューラルネットワーク操作を微分可能とし、多くの有望な非微分可能なアーキテクチャを実用的な使用から除外する。
これらの制約に対処するため,進化アルゴリズム(EA4LLM)を用いてLLMを最適化する手法を提案する。
我々は広範な実験を行い、進化的アルゴリズムがニューラルネットワークを効果的に最適化する方法について重要な洞察を提供する。
我々の研究は、勾配に基づく最適化がニューラルネットワークをトレーニングするための唯一実行可能なアプローチであるという一般的な仮定に挑戦している。
また、大きな言語モデルを訓練する際の計算コストを削減し、限られた計算資源を持つグループがディープラーニング研究に参加できるようにする大きな可能性を秘めている。
関連論文リスト
- Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - EvoPruneDeepTL: An Evolutionary Pruning Model for Transfer Learning
based Deep Neural Networks [15.29595828816055]
本稿では,トランスファーラーニングに基づくディープニューラルネットワークのための進化的プルーニングモデルを提案する。
EvoPruneDeepTLは、最後の完全に接続されたレイヤを遺伝的アルゴリズムによって最適化されたスパースレイヤで置き換える。
その結果,ネットワーク全体の計算効率に対するEvoPruneDeepTLと特徴選択の寄与が示された。
論文 参考訳(メタデータ) (2022-02-08T13:07:55Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。