Fugu-MT 論文翻訳(概要): Iterated Piecewise Affine (IPA) Approximation for Language Modeling

論文の概要: Iterated Piecewise Affine (IPA) Approximation for Language Modeling

arxiv url: http://arxiv.org/abs/2306.12317v3
Date: Wed, 1 Nov 2023 18:04:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 17:22:23.850274
Title: Iterated Piecewise Affine (IPA) Approximation for Language Modeling
Title（参考訳）: 言語モデリングのための反復的Piecewise Affine (IPA)近似
Authors: Davood Shamsi, Wen-yu Hua, Brian Williams
Abstract要約: 一般関数 $F: Rn times m から Rn times m$ への1次テイラー展開の適用を実証する。テイラーの基本的な拡張を強化するため、反復と断片的モデリングを導入し、そのアルゴリズムをIterative Piecewise Affine (IPA)近似と呼ぶ。
参考スコア（独自算出の注目度）: 1.1510009152620664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we demonstrate the application of a first-order Taylor expansion to approximate a generic function $F: R^{n \times m} \to R^{n \times m}$ and utilize it in language modeling. To enhance the basic Taylor expansion, we introduce iteration and piecewise modeling, leading us to name the algorithm the Iterative Piecewise Affine (IPA) approximation. The final algorithm exhibits interesting resemblances to the Transformers decoder architecture. By comparing parameter arrangements in IPA and Transformers, we observe a strikingly similar performance, with IPA outperforming Transformers by 1.5\% in the next token prediction task with cross-entropy loss for smaller sequence lengths.
Abstract（参考訳）: 本研究では、一般関数 $F: R^{n \times m} \to R^{n \times m}$ を近似するための一階テイラー展開の適用を実演し、それを言語モデリングに活用する。テイラーの基本的な拡張を強化するため、反復と断片的モデリングを導入し、そのアルゴリズムをIterative Piecewise Affine (IPA)近似と呼ぶ。最後のアルゴリズムはtransformers decoderアーキテクチャによく似ている。 IPAとTransformerのパラメータアレンジメントを比較することで、より小さなシーケンス長のクロスエントロピーロスを伴う次のトークン予測タスクにおいて、IPAは1.5倍の精度でTransformerを性能良くする。

関連論文リスト

Standard Transformers Achieve the Minimax Rate in Nonparametric Regression with $C^{s,λ}$ Targets [8.844802588836059]
本稿では,標準変換器がHlder関数を近似できることを示す最初の研究である。サイズと次元ベクトルの2つの指標を導入することにより、トランスフォーマー構造を微粒化することができる。
論文参考訳（メタデータ） (2026-02-24T05:14:01Z)
LAMP: Look-Ahead Mixed-Precision Inference of Large Language Models [2.845351470902218]
本稿では,変圧器推論に着目した合成リッチ関数の浮動小数点計算について述べる。我々は、より正確に計算するために$g(mathrmx)$の小さな部分集合を選択し、他の全ての計算をより低い精度で行うための適応戦略を提供する。このアルゴリズムの有効性をGPT-2モデルで数値的に検討し、すでに非常に低い再計算率で最大2桁の精度向上が可能であることを実証した。
論文参考訳（メタデータ） (2026-01-29T12:26:00Z)
On the Effectiveness of the z-Transform Method in Quadratic Optimization [0.0]
シーケンスのz変換は、信号処理、制御理論、計算機科学、電気工学で使用される古典的なツールである。特に、z変換法は振舞いに焦点をあて、テイラー展開の使用を可能にする。
論文参考訳（メタデータ） (2025-07-04T09:12:23Z)
Transformers Meet In-Context Learning: A Universal Approximation Theory [25.513848079509653]
我々は、変換器が文脈内学習を実現する方法を理解するために、普遍近似理論を開発する。関数の一般的なクラスに対して、いくつかのノイズの多いインコンテキストの例に基づいて予測できる変換器を構築する方法を示す。
論文参考訳（メタデータ） (2025-06-05T16:12:51Z)
PiT: Progressive Diffusion Transformer [50.46345527963736]
Pseudo textbfProgressive Dtextbfiffusion textbfTransformer (textbfPiT)を提案する。提案したPiT-Lは,演算量が少なく,DiT-XL/2よりも54%$uparrow$FIDの改善を実現している。
論文参考訳（メタデータ） (2025-05-19T15:02:33Z)
Approximation Bounds for Transformer Networks with Application to Regression [9.549045683389085]
H"older 関数と Sobolev 関数に対する Transformer ネットワークの近似機能について検討する。シーケンス・ツー・シーケンス・マッピングを近似した標準トランスフォーマー・ネットワークのための新しい上限を確立する。トランスフォーマーの自己アテンション層がカラム平均化を行うことができれば,ネットワークはシーケンス・ツー・シーケンスのH"older関数を近似することができることを示す。
論文参考訳（メタデータ） (2025-04-16T15:25:58Z)
Exact Sequence Classification with Hardmax Transformers [0.0]
我々は、ハードマックスのアテンショントランスフォーマーが$N$ラベル付きシーケンスのデータセットを$mathbbRd$, $dgeq 2$で完全に分類することを証明している。具体的には、$mathbbRd$で任意の長さの$N$シーケンスを与えられた場合、$mathcalO(N)$ブロックと$mathcalO(Nd)$パラメータで変換器を構築し、このデータセットを完全に分類する。
論文参考訳（メタデータ） (2025-02-04T12:31:00Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。提案手法を拡張・結合する新しい手法を提案し,検討する。
論文参考訳（メタデータ） (2024-02-01T19:47:31Z)
Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文参考訳（メタデータ） (2023-07-05T13:59:35Z)
Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文参考訳（メタデータ） (2022-10-21T08:13:34Z)
Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。 RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文参考訳（メタデータ） (2022-05-26T14:51:30Z)
Language Modeling using LMUs: 10x Better Data Efficiency or Improved Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文参考訳（メタデータ） (2021-10-05T23:20:37Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文参考訳（メタデータ） (2020-06-08T18:30:12Z)
Non-asymptotic Convergence of Adam-type Reinforcement Learning Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文参考訳（メタデータ） (2020-02-15T00:26:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。