論文の概要: Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models
- arxiv url: http://arxiv.org/abs/2411.03884v1
- Date: Wed, 06 Nov 2024 13:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:56.392373
- Title: Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models
- Title(参考訳): 多項式合成活性化:大規模言語モデルのダイナミクスを解き放つ
- Authors: Zhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma,
- Abstract要約: トランスフォーマーは、強力なフィッティング能力のために、様々な領域にまたがる広範囲のアプリケーションを見つけてきた。
本稿では, 変圧器の動的特性を最適化するために, アクティベーションの新たなカテゴリ (PolyCom) を提案する。
- 参考スコア(独自算出の注目度): 18.02269664279028
- License:
- Abstract: Transformers have found extensive applications across various domains due to the powerful fitting capabilities. This success can be partially attributed to their inherent nonlinearity. Thus, in addition to the ReLU function employed in the original transformer architecture, researchers have explored alternative modules such as GeLU and SwishGLU to enhance nonlinearity and thereby augment representational capacity. In this paper, we propose a novel category of polynomial composition activations (PolyCom), designed to optimize the dynamics of transformers. Theoretically, we provide a comprehensive mathematical analysis of PolyCom, highlighting its enhanced expressivity and efficacy relative to other activation functions. Notably, we demonstrate that networks incorporating PolyCom achieve the $\textbf{optimal approximation rate}$, indicating that PolyCom networks require minimal parameters to approximate general smooth functions in Sobolev spaces. We conduct empirical experiments on the pre-training configurations of large language models (LLMs), including both dense and sparse architectures. By substituting conventional activation functions with PolyCom, we enable LLMs to capture higher-order interactions within the data, thus improving performance metrics in terms of accuracy and convergence rates. Extensive experimental results demonstrate the effectiveness of our method, showing substantial improvements over other activation functions. Code is available at https://github.com/BryceZhuo/PolyCom.
- Abstract(参考訳): トランスフォーマーは、強力なフィッティング能力のために、様々な領域にまたがる広範囲のアプリケーションを見つけてきた。
この成功は、その固有の非線形性に起因する。
このように、元のトランスアーキテクチャで使用されるReLU関数に加えて、研究者はGeLUやSwishGLUといった代替モジュールを探索し、非線形性を高め、表現能力を増強した。
本稿では,変圧器のダイナミクスを最適化するために,多項式合成アクティベーションの新たなカテゴリ (PolyCom) を提案する。
理論的には、PolyComの包括的な数学的解析を行い、その拡張された表現性と他の活性化関数に対する有効性を強調した。
特に、PolyComを組み込んだネットワークが$\textbf{optimal approximation rate}$を達成できることを示し、Sbolev空間の一般スムーズな関数を近似するために、PolyComネットワークが最小のパラメータを必要とすることを示す。
大規模言語モデル(LLM)の事前学習構成に関する実証実験を行った。
従来のアクティベーション関数をPolyComに置き換えることで、LCMはデータ内の高次相互作用をキャプチャし、精度と収束率の観点から性能指標を改善することができる。
本手法の有効性を実験的に検証し,他のアクティベーション関数よりも大幅に改善した。
コードはhttps://github.com/BryceZhuo/PolyComで入手できる。
関連論文リスト
- PolyCL: Contrastive Learning for Polymer Representation Learning via Explicit and Implicit Augmentations [1.7695773264807546]
ラベルを使わずに高品質なポリマー表現を学習するための,自己指導型コントラスト学習パラダイムであるPolyCLを提案する。
我々のモデルは、学習性能を向上させるために、明示的かつ暗黙的な拡張戦略を組み合わせる。
論文 参考訳(メタデータ) (2024-08-14T13:43:22Z) - Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation [0.0]
本稿では,Chebyshev Kolmogorov-Arnoldの定理に触発された新しいニューラルネットワークアーキテクチャであるChebyshev Kolmogorov-Arnold Networkについて述べる。
ネットワークのエッジ上でChebyshevによってパラメータ化された学習可能な関数を利用することで、Chebyshev Kansは関数近似タスクの柔軟性、効率、解釈性を向上させる。
論文 参考訳(メタデータ) (2024-05-12T07:55:43Z) - Machine Learning Optimized Orthogonal Basis Piecewise Polynomial Approximation [0.9208007322096533]
Piecewise Polynomials (PP) は、軌道計画のようないくつかの工学分野において、点の集合の形で与えられる位置プロファイルを近似するために用いられる。
論文 参考訳(メタデータ) (2024-03-13T14:34:34Z) - Generalized Activation via Multivariate Projection [46.837481855573145]
活性化関数はニューラルネットワークに非線形性を導入するのに不可欠である。
我々は、ReLU を R から非負半直線 R+ への射影とみなす。
一般化された射影作用素でReLUを2次錐(SOC)射影のような凸錐に置換することでReLUを拡張する。
論文 参考訳(メタデータ) (2023-09-29T12:44:27Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers [71.32827362323205]
我々はLearner-Transformer (Learners)と呼ばれる線形変換器の新しいクラスを提案する。
様々な相対的位置エンコーディング機構(RPE)を組み込んでいる。
これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Adaptively Customizing Activation Functions for Various Layers [10.522556291990437]
本研究では、Sigmoid、Tanh、ReLUといった従来のアクティベーション関数にごく少数のパラメータを追加するだけで、アクティベーション関数を適応的にカスタマイズする新しい手法を提案する。
提案手法の有効性を検証するため, 収束の促進と性能向上に関する理論的, 実験的検討を行った。
その結果、提案手法は非常に単純であるが、収束速度、精度、一般化において大きな性能を有しており、ReLUやSwishのような適応関数といった他の一般的な手法を、全体的な性能の観点からほぼ全ての実験で上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-17T11:23:03Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。