論文の概要: Tensor Attention Training: Provably Efficient Learning of Higher-order Transformers
- arxiv url: http://arxiv.org/abs/2405.16411v2
- Date: Mon, 14 Oct 2024 04:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:48.460689
- Title: Tensor Attention Training: Provably Efficient Learning of Higher-order Transformers
- Title(参考訳): テンソル注意訓練:高次変圧器の効率的な学習
- Authors: Yingyu Liang, Zhenmei Shi, Zhao Song, Yufa Zhou,
- Abstract要約: テンソルアテンションの時間的複雑さは、変圧器におけるその利用にとって重要な障害である。
注意訓練の後方勾配をほぼ線形時間で計算できることを実証する。
- 参考スコア(独自算出の注目度): 18.331374727331077
- License:
- Abstract: Tensor Attention, a multi-view attention that is able to capture high-order correlations among multiple modalities, can overcome the representational limitations of classical matrix attention. However, the $O(n^3)$ time complexity of tensor attention poses a significant obstacle to its utilization in transformers, where $n$ is the input sequence length. In this work, we prove that the backward gradient of tensor attention training can be computed in almost linear time $n^{1+o(1)}$, the same complexity as its forward computation under the bounded entries assumption. We provide a closed-form solution for the gradient and propose a fast computation method utilizing polynomial approximation methods and tensor algebraic techniques. Furthermore, we prove the necessity and tightness of our assumption through hardness analysis, showing that slightly weakening it renders the gradient problem unsolvable in truly subcubic time. Our theoretical results establish the feasibility of efficient higher-order transformer training and may facilitate practical applications of tensor attention architectures.
- Abstract(参考訳): テンソル注意(Tensor Attention)は、複数のモーダル間の高次相関を捉えることができるマルチビューアテンションであり、古典的行列アテンションの表現的限界を克服することができる。
しかし、テンソルアテンションの時間複雑性$O(n^3)は、入力シーケンス長が$n$となるトランスフォーマーにおいて、その利用に大きな障害をもたらす。
本研究では、テンソルアテンショントレーニングの後方勾配をほぼ線形時間$n^{1+o(1)}$で計算できることを証明した。
勾配の閉形式解を提案し,多項式近似法とテンソル代数的手法を用いた高速計算法を提案する。
さらに, 硬度解析による仮定の必要性と厳密さを証明し, わずかに弱めれば, 真のサブキュビック時間では解けない勾配問題が得られることを示した。
提案手法は,高次変圧器の効率的な訓練の実現可能性を確立し,テンソルアテンションアーキテクチャの実用化を促進する。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - Power of $\ell_1$-Norm Regularized Kaczmarz Algorithms for High-Order Tensor Recovery [8.812294191190896]
スパース構造および/またはローランク構造を特徴とする高次テンソルを復元するための新しいカッツマルツアルゴリズムを提案する。
合成および実世界の両方のデータセットに関する様々な数値実験により、提案手法の有効性と有意義なポテンシャルが示された。
論文 参考訳(メタデータ) (2024-05-14T02:06:53Z) - Tensor cumulants for statistical inference on invariant distributions [49.80012009682584]
我々は,PCAが信号の大きさの臨界値で計算的に困難になることを示す。
我々は、与えられた次数の不変量に対して明示的でほぼ直交的な基底を与える新しい対象の集合を定義する。
また、異なるアンサンブルを区別する新しい問題も分析できます。
論文 参考訳(メタデータ) (2024-04-29T14:33:24Z) - Tensor Completion via Integer Optimization [7.813563137863005]
テンソル完備化問題の主な課題は、計算力と情報理論サンプルの複雑さ率の基本的な緊張である。
過去のアプローチでは、情報理論の速度を達成するか、対応する解を計算するための実用的なアルゴリズムが欠如していた。
本稿では, 線形数のオラクルステップと情報理論速度で証明可能な収束(数値耐性)を両立させることにより, この緊張を解消する新しいテンソル完備化アルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-02-06T21:44:07Z) - Scalable tensor methods for nonuniform hypergraphs [0.18434042562191813]
最近提案された隣接テンソルは、非一様ハイパーグラフに適用できるが、実際は形成・解析するのに著しくコストがかかる。
テンソル時間同値ベクトル(TTSV)アルゴリズムを開発し,複雑性を$O(nr)$から$r$の低次に改善する。
テンソルベースハイパーグラフ集中度とクラスタリングアルゴリズムを開発することにより,我々のアプローチの柔軟性と実用性を実証する。
論文 参考訳(メタデータ) (2023-06-30T17:41:58Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z) - Error Analysis of Tensor-Train Cross Approximation [88.83467216606778]
我々は, テンソル全体の精度保証を行う。
結果は数値実験により検証され、高次テンソルに対するクロス近似の有用性に重要な意味を持つ可能性がある。
論文 参考訳(メタデータ) (2022-07-09T19:33:59Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - A Solution for Large Scale Nonlinear Regression with High Rank and
Degree at Constant Memory Complexity via Latent Tensor Reconstruction [0.0]
本稿では,高非線形多変量関数を例から学習する新しい手法を提案する。
この手法は、連続函数をバイスで近似できるという性質を生かし、テンソルで表現できる。
モデルを学習するために,線形時間で実装可能な効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T14:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。