論文の概要: Optimal Memorization Capacity of Transformers
- arxiv url: http://arxiv.org/abs/2409.17677v1
- Date: Thu, 26 Sep 2024 09:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 20:56:11.241736
- Title: Optimal Memorization Capacity of Transformers
- Title(参考訳): 変圧器の最適記憶容量
- Authors: Tokio Kajitsuka, Issei Sato,
- Abstract要約: 変換器は$tildeO(sqrtN)$パラメータでラベルを記憶でき、$N$の入力シーケンスは$n$である。
また、シーケンス・ツー・シーケンス設定における記憶能力を分析し、$tildeO(sqrtnN)$パラメータが十分であるだけでなく、ハードマックスを持つ変換器にも必要であることを示す。
- 参考スコア(独自算出の注目度): 32.01426831450348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research in the field of machine learning has increasingly focused on the memorization capacity of Transformers, but how efficient they are is not yet well understood. We demonstrate that Transformers can memorize labels with $\tilde{O}(\sqrt{N})$ parameters in a next-token prediction setting for $N$ input sequences of length $n$, which is proved to be optimal up to logarithmic factors. This indicates that Transformers can efficiently perform memorization with little influence from the input length $n$ owing to the benefit of parameter sharing. We also analyze the memorization capacity in the sequence-to-sequence setting, and find that $\tilde{O}(\sqrt{nN})$ parameters are not only sufficient, but also necessary at least for Transformers with hardmax. These results suggest that while self-attention mechanisms can efficiently identify input sequences, the feed-forward network becomes a bottleneck when associating a label to each token.
- Abstract(参考訳): 近年、機械学習の分野では、トランスフォーマーの記憶能力に注目が集まっているが、その効率性はまだよく分かっていない。
そこで,Transformerは$\tilde{O}(\sqrt{N})$パラメータでラベルを記憶できることを示す。
このことは、Transformerがパラメータ共有の利点により入力長$n$からほとんど影響を受けずに、効率的にメモリ化を行うことができることを示している。
また、シーケンス・ツー・シーケンス設定における記憶能力を分析し、$\tilde{O}(\sqrt{nN})$パラメータが十分であるだけでなく、少なくともハードマックスを持つ変換器には必要であることを示す。
これらの結果から,自己認識機構は入力シーケンスを効率的に識別できるが,各トークンにラベルを関連付けると,フィードフォワードネットワークがボトルネックとなることが示唆された。
関連論文リスト
- Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Breaking Symmetry When Training Transformers [3.434553688053531]
出力トークン$n+1$のトランスフォーマーアーキテクチャに対して,位置エンコーディングのメカニズムや因果的アテンションの1つを使わずに,入力トークンの置換に不変であることを示す。
我々は、因果接続機構は、トランスフォーマーが順序が重要である入力シーケンスをモデル化できるという事実に責任を負わなければならないという議論を詳しく述べる。
論文 参考訳(メタデータ) (2024-02-06T00:32:28Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - What Dense Graph Do You Need for Self-Attention? [73.82686008622596]
我々はハイパーキューブにおけるトークンインタラクションをモデル化し、バニラ変換器と同等あるいはそれ以上の結果を示すスパーストランスフォーマーHypercube Transformerを提案する。
様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をうまく行いました。
論文 参考訳(メタデータ) (2022-05-27T14:36:55Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Transformers are RNNs: Fast Autoregressive Transformers with Linear
Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。
我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。
線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文 参考訳(メタデータ) (2020-06-29T17:55:38Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。