Fugu-MT 論文翻訳(概要): Iterated Piecewise Affine (IPA) Approximation for Language Modeling

論文の概要: Iterated Piecewise Affine (IPA) Approximation for Language Modeling

arxiv url: http://arxiv.org/abs/2306.12317v1
Date: Wed, 21 Jun 2023 14:58:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 13:00:23.822356
Title: Iterated Piecewise Affine (IPA) Approximation for Language Modeling
Title（参考訳）: 言語モデリングのための反復的Piecewise Affine (IPA)近似
Authors: Davood Shamsi, Wen-yu Hua, Brian Williams
Abstract要約: 一般関数 $F: Rn times m から Rn times m$ への単純な一階テイラー展開の適用を実証する。テイラーの基本的な拡張性を高めるため、我々は断片的モデリングを導入し、そのアルゴリズムをIterative Piecewise Affine (IPA)近似と名付けた。
参考スコア（独自算出の注目度）: 2.9327503320877457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we demonstrate the application of a simple first-order Taylor expansion to approximate a generic function $F: R^{n \times m} \to R^{n \times m}$ and utilize it in language modeling. To enhance the basic Taylor expansion, we introduce iteration and piecewise modeling, leading us to name the algorithm the Iterative Piecewise Affine (IPA) approximation. The final algorithm exhibits interesting resemblances to the Transformers decoder architecture. By comparing parameter arrangements in IPA and Transformers, we observe a strikingly similar performance, with IPA outperforming Transformers by 1.5\% in the next token prediction task with cross-entropy loss for smaller sequence lengths.
Abstract（参考訳）: 本研究では,一般関数 $F: R^{n \times m} \to R^{n \times m}$ を近似するための単純な一階述語Taylor展開の適用を実演し,言語モデリングに活用する。テイラーの基本的な拡張を強化するため、反復と断片的モデリングを導入し、そのアルゴリズムをIterative Piecewise Affine (IPA)近似と呼ぶ。最後のアルゴリズムはtransformers decoderアーキテクチャによく似ている。 IPAとTransformerのパラメータアレンジメントを比較することで、より小さなシーケンス長のクロスエントロピーロスを伴う次のトークン予測タスクにおいて、IPAは1.5倍の精度でTransformerを性能良くする。

関連論文リスト

On the Effectiveness of the z-Transform Method in Quadratic Optimization [0.0]
シーケンスのz変換は、信号処理、制御理論、計算機科学、電気工学で使用される古典的なツールである。特に、z変換法は振舞いに焦点をあて、テイラー展開の使用を可能にする。
論文参考訳（メタデータ） (2025-07-04T09:12:23Z)
PiT: Progressive Diffusion Transformer [50.46345527963736]
Pseudo textbfProgressive Dtextbfiffusion textbfTransformer (textbfPiT)を提案する。提案したPiT-Lは,演算量が少なく,DiT-XL/2よりも54%$uparrow$FIDの改善を実現している。
論文参考訳（メタデータ） (2025-05-19T15:02:33Z)
Approximation Bounds for Transformer Networks with Application to Regression [9.549045683389085]
H"older 関数と Sobolev 関数に対する Transformer ネットワークの近似機能について検討する。シーケンス・ツー・シーケンス・マッピングを近似した標準トランスフォーマー・ネットワークのための新しい上限を確立する。トランスフォーマーの自己アテンション層がカラム平均化を行うことができれば,ネットワークはシーケンス・ツー・シーケンスのH"older関数を近似することができることを示す。
論文参考訳（メタデータ） (2025-04-16T15:25:58Z)
Exact Sequence Classification with Hardmax Transformers [0.0]
我々は、ハードマックスのアテンショントランスフォーマーが$N$ラベル付きシーケンスのデータセットを$mathbbRd$, $dgeq 2$で完全に分類することを証明している。具体的には、$mathbbRd$で任意の長さの$N$シーケンスを与えられた場合、$mathcalO(N)$ブロックと$mathcalO(Nd)$パラメータで変換器を構築し、このデータセットを完全に分類する。
論文参考訳（メタデータ） (2025-02-04T12:31:00Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。提案手法を拡張・結合する新しい手法を提案し,検討する。
論文参考訳（メタデータ） (2024-02-01T19:47:31Z)
Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文参考訳（メタデータ） (2023-07-05T13:59:35Z)
Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文参考訳（メタデータ） (2022-10-21T08:13:34Z)
Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。 RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文参考訳（メタデータ） (2022-05-26T14:51:30Z)
Language Modeling using LMUs: 10x Better Data Efficiency or Improved Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文参考訳（メタデータ） (2021-10-05T23:20:37Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文参考訳（メタデータ） (2020-06-08T18:30:12Z)
Non-asymptotic Convergence of Adam-type Reinforcement Learning Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文参考訳（メタデータ） (2020-02-15T00:26:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。