論文の概要: Iterated Piecewise Affine (IPA) Approximation for Language Modeling
- arxiv url: http://arxiv.org/abs/2306.12317v3
- Date: Wed, 1 Nov 2023 18:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 17:22:23.850274
- Title: Iterated Piecewise Affine (IPA) Approximation for Language Modeling
- Title(参考訳): 言語モデリングのための反復的Piecewise Affine (IPA)近似
- Authors: Davood Shamsi, Wen-yu Hua, Brian Williams
- Abstract要約: 一般関数 $F: Rn times m から Rn times m$ への1次テイラー展開の適用を実証する。
テイラーの基本的な拡張を強化するため、反復と断片的モデリングを導入し、そのアルゴリズムをIterative Piecewise Affine (IPA)近似と呼ぶ。
- 参考スコア(独自算出の注目度): 1.1510009152620664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we demonstrate the application of a first-order Taylor
expansion to approximate a generic function $F: R^{n \times m} \to R^{n \times
m}$ and utilize it in language modeling. To enhance the basic Taylor expansion,
we introduce iteration and piecewise modeling, leading us to name the algorithm
the Iterative Piecewise Affine (IPA) approximation. The final algorithm
exhibits interesting resemblances to the Transformers decoder architecture. By
comparing parameter arrangements in IPA and Transformers, we observe a
strikingly similar performance, with IPA outperforming Transformers by 1.5\% in
the next token prediction task with cross-entropy loss for smaller sequence
lengths.
- Abstract(参考訳): 本研究では、一般関数 $F: R^{n \times m} \to R^{n \times m}$ を近似するための一階テイラー展開の適用を実演し、それを言語モデリングに活用する。
テイラーの基本的な拡張を強化するため、反復と断片的モデリングを導入し、そのアルゴリズムをIterative Piecewise Affine (IPA)近似と呼ぶ。
最後のアルゴリズムはtransformers decoderアーキテクチャによく似ている。
IPAとTransformerのパラメータアレンジメントを比較することで、より小さなシーケンス長のクロスエントロピーロスを伴う次のトークン予測タスクにおいて、IPAは1.5倍の精度でTransformerを性能良くする。
関連論文リスト
- Transformers as Transducers [27.48483887144685]
変換器のシーケンス・ツー・シーケンスマッピング能力について検討する。
驚くほど大きなトランスダクションのクラスを表現できることがわかりました。
トランスデコーダがチューリング完全であるという新しい証明。
論文 参考訳(メタデータ) (2024-04-02T15:34:47Z) - Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。
我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文 参考訳(メタデータ) (2023-07-05T13:59:35Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文 参考訳(メタデータ) (2022-10-21T08:13:34Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Non-asymptotic Convergence of Adam-type Reinforcement Learning
Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。
一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。
線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文 参考訳(メタデータ) (2020-02-15T00:26:49Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。