論文の概要: Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models
- arxiv url: http://arxiv.org/abs/2605.06683v1
- Date: Fri, 24 Apr 2026 20:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.680272
- Title: Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models
- Title(参考訳): Toeplitz MLP Mixers is Low Complexity, Information-Rich Sequence Models
- Authors: Benjamin L. Badger, Ethan Roland,
- Abstract要約: 本稿では, トイプリッツ・ミキサー (TMM) を導入し, シークエンス次元上でのトイプリッツ行列乗算に注意を切り替えるトランスフォーマーのようなアーキテクチャを提案する。
TMMは、コンピュータとデバイスメモリ当たりの損失の点でトレーニング効率が向上する。
TMMは、同等のアーキテクチャと比較して、優れた情報検索とコンテキスト内学習ベンチマークの精度を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models are in some respects limited by the quadratic time and space computational complexity of attention. We introduce the Toeplitz MLP Mixer (TMM), a transformer-like architecture that swaps attention for triangular-masked Toeplitz matrix multiplication over the sequence dimension resulting in $\mathcal{O} (dn \log n)$ time and $\mathcal O(dn)$ space complexity during training and $\mathcal O(dn)$ time and space at inference prefill. Despite the lack of sophisticated input modulation or state maintenance present in other sub-quadratic architectures, TMMs yield greater training efficiency in terms of loss achieved per compute and device memory. We demonstrate that TMMs are capable of retaining more input information resulting in improved copying ability, which we argue results from a lack of architectural biases. Consistent with higher input information retention, TMMs exhibit superior information retrieval and in-context learning benchmark accuracy compared to comparable architectures. We conclude with an analysis from the perspective of operator index theory and show that, counterintuitively, trained Toeplitz layers of causal non-invertible models are more likely to be invertible or nearly so than models that are actually invertible over their inputs.
- Abstract(参考訳): 変換器に基づく大規模言語モデルは、注意の2次時間と空間計算の複雑さによって制限されている。
Toeplitz MLP Mixer (TMM) は、三角行列のToeplitz行列乗法に代えて、トレーニング中の空間複雑性を$\mathcal{O} (dn \log n)$ time and $\mathcal O(dn)$ time and space at inference prefill をもたらす。
他のサブクアッドラティックアーキテクチャに洗練された入力変調や状態維持がないにもかかわらず、TMMは計算やデバイスメモリ当たりの損失の点でトレーニング効率が向上する。
我々は、TMMがより多くのインプット情報を保持でき、結果としてコピー能力が改善されていることを示し、アーキテクチャ上のバイアスの欠如による結果について議論する。
入力情報の保持率が高いため、TMMは同等のアーキテクチャに比べて優れた情報検索とテキスト内学習ベンチマークの精度を示す。
演算子指数論の観点から解析を行い、因果非可逆モデルのトイプリッツ層は、実際に入力に対して可逆であるモデルよりも、可逆的あるいはほぼ可逆的であることを示す。
関連論文リスト
- Structured Recurrent Mixers for Massively Parallelized Sequence Generation [0.0]
本稿では,列車時のシーケンス並列表現と推論時のリカレント表現との変換を可能にするアーキテクチャであるStructured Recurrent Mixerを紹介する。
この二重表現は、他の線形複雑性モデルと比較して、トレーニング効率が向上し、入力情報のキャパシティが向上し、推論スループットと長さが向上することを示す。
論文 参考訳(メタデータ) (2026-05-09T05:07:55Z) - Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models [68.31088463716269]
状態空間モデル(SSM)における遷移行列の構造的スパースパラメトリゼーションを提案する。
我々の方法PD-SSMは、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
このモデルは、様々なFSA状態追跡タスクにおいて、現代のSSMの多種多様なバリエーションを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-26T12:46:30Z) - Neural Estimation for Scaling Entropic Multimarginal Optimal Transport [14.389645696715599]
ニューラルエントロピーMOT(Neural Entropic MOT)と呼ばれる,エントロピーMOTのための新しい計算フレームワークを提案する。
NEMOTでは、データセットサイズからミニバッチサイズに計算複雑性を転送するミニバッチを使用してトレーニングされたニューラルネットワークを使用している。
特に、マグニチュード・オブ・マグニチュード・スピードアップは最先端技術と比較して観察され、可能なサンプル数や限界数が顕著に増加する。
論文 参考訳(メタデータ) (2025-05-31T14:10:27Z) - Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - On Limitation of Transformer for Learning HMMs [31.128172929754058]
本稿では,隠れマルコフモデル(HMM)の学習における変換器の性能について検討する。
我々は,トランスフォーマーが,すべてのテスト済みHMMモデルに対して,トレーニング速度とテスト精度の両方で連続ニューラルネットワーク(Recurrent Neural Networks, RNN)の性能を一貫して低下させることを示した。
さらに,HMMのタイプと複雑さに基づいて,トランスフォーマーの深さと,それが効果的に学習できるシーケンス長との関係を明らかにした。
論文 参考訳(メタデータ) (2024-06-06T13:59:51Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの計算タスクで素晴らしいパフォーマンスを達成した。
密度の高い接続は、より大きな膨張比をサポートするスパースブロック対角構造に置き換えることができることを示す。
また、トレーニング中に並列分岐として、軽量でパラメータフリーなチャネル共分散アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。