論文の概要: Reparameterized LLM Training via Orthogonal Equivalence Transformation
- arxiv url: http://arxiv.org/abs/2506.08001v1
- Date: Mon, 09 Jun 2025 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.105235
- Title: Reparameterized LLM Training via Orthogonal Equivalence Transformation
- Title(参考訳): 直交同値変換による再パラメータ化LDMトレーニング
- Authors: Zeju Qiu, Simon Buchholz, Tim Z. Xiao, Maximilian Dax, Bernhard Schölkopf, Weiyang Liu,
- Abstract要約: 直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
- 参考スコア(独自算出の注目度): 54.80172809738605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) are driving the rapid advancement of artificial intelligence, effectively and reliably training these large models remains one of the field's most significant challenges. To address this challenge, we propose POET, a novel reParameterized training algorithm that uses Orthogonal Equivalence Transformation to optimize neurons. Specifically, POET reparameterizes each neuron with two learnable orthogonal matrices and a fixed random weight matrix. Because of its provable preservation of spectral properties of weight matrices, POET can stably optimize the objective function with improved generalization. We further develop efficient approximations that make POET flexible and scalable for training large-scale neural networks. Extensive experiments validate the effectiveness and scalability of POET in training LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能の急速な進歩を推進しているが、これらの大きなモデルを効果的かつ確実に訓練することは、この分野の最も重要な課題の1つである。
この課題に対処するために,Orthogonal Equivalence Transformation を用いてニューロンを最適化する新しい再パラメータ化トレーニングアルゴリズム POET を提案する。
具体的には、POETは2つの学習可能な直交行列と固定されたランダムな重み行列で各ニューロンを再パラメータ化する。
重量行列のスペクトル特性の証明可能な保存のため、POETは一般化を改良して目的関数を安定に最適化することができる。
さらに、大規模ニューラルネットワークのトレーニングにPOETを柔軟かつスケーラブルにするための効率的な近似を開発する。
広範囲な実験により、LLMのトレーニングにおけるPOETの有効性とスケーラビリティが検証された。
関連論文リスト
- Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。
本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文 参考訳(メタデータ) (2024-11-24T00:33:43Z) - Large Language Models as Surrogate Models in Evolutionary Algorithms: A Preliminary Study [5.6787965501364335]
サロゲートアシスト選択は、高価な最適化問題を解決する進化アルゴリズムの中核的なステップである。
伝統的に、これは従来の機械学習手法に依存しており、過去の評価を利用して新しいソリューションの性能を予測する。
本研究では,LLM推論機能に基づいた新しいサロゲートモデルを提案する。
論文 参考訳(メタデータ) (2024-06-15T15:54:00Z) - Adaptive multiple optimal learning factors for neural network training [0.0]
提案した適応多重最適学習因子(AMOLF)アルゴリズムは,乗算毎の誤差変化に基づいて動的に学習因子数を調整する。
この論文は、目的関数の曲率に基づいて重みをグループ化する手法や、大きなヘッセン行列を圧縮する手法も導入している。
論文 参考訳(メタデータ) (2024-06-04T21:18:24Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
ニューラルネットワークのような予測器のための新しいトレーニング原理であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決へのそれぞれの貢献に基づいて、個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分を補強し,有害な部分を弱めるという欲求的アプローチを実現する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。