論文の概要: Two Heads Are Better than One: Simulating Large Transformers with Small Ones
- arxiv url: http://arxiv.org/abs/2506.12220v2
- Date: Thu, 19 Jun 2025 02:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:52.318316
- Title: Two Heads Are Better than One: Simulating Large Transformers with Small Ones
- Title(参考訳): 2つの頭は1つより優れている:小さな頭で大きなトランスをシミュレートする
- Authors: Hantao Yu, Josh Alman,
- Abstract要約: 長い入力シーケンスを持つ変換器は、短い入力シーケンスしか持たない変換器で効率的にシミュレートできることを示す。
次に、平均ケース入力、スライディングウインドウマスキング、アテンションシンクを含む様々な自然シナリオにおいて、最適数$O(N/M)$の小さな変圧器が十分であることを示す。
- 参考スコア(独自算出の注目度): 3.514389461266844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of self-attention prevents transformers from scaling effectively to long input sequences. On the other hand, modern GPUs and other specialized hardware accelerators are well-optimized for processing small input sequences in transformers during both training and inference. A natural question arises: can we take advantage of the efficiency of small transformers to deal with long input sequences? In this paper, we show that transformers with long input sequences (large transformers) can be efficiently simulated by transformers that can only take short input sequences (small transformers). Specifically, we prove that any transformer with input length $N$ can be efficiently simulated by only $O((N/M)^2)$ transformers with input length $M \ll N$, and that this cannot be improved in the worst case. However, we then prove that in various natural scenarios including average-case inputs, sliding window masking and attention sinks, the optimal number $O(N/M)$ of small transformers suffice.
- Abstract(参考訳): 自己注意の二次的な複雑さは、トランスフォーマーが長い入力シーケンスに効果的にスケーリングすることを防ぐ。
一方、現代のGPUや他のハードウェアアクセラレーターは、トレーニングと推論の両方の間、トランスフォーマー内の小さな入力シーケンスを処理するように最適化されている。
長い入力シーケンスを扱うために、小さな変換器の効率を活かせるか?
本稿では,長い入力シーケンス(大域変圧器)を持つ変圧器を,短い入力シーケンス(小域変圧器)しか持たない変圧器で効率的にシミュレートできることを示す。
具体的には、入力長さが$N$の変換器は、入力長さが$M \ll N$の変換器でのみ$O((N/M)^2)$で効率的にシミュレートできることを証明し、最悪の場合には改善できない。
しかし、平均ケース入力、スライディングウインドウマスキング、アテンションシンクなど様々な自然シナリオにおいて、小さな変圧器の最適値$O(N/M)が十分であることを示す。
関連論文リスト
- Concise One-Layer Transformers Can Do Function Evaluation (Sometimes) [1.157192696857674]
本稿では,変圧器の表現能力に関する研究に寄与する。
任意の関数を与えられた引数で$[n]$から$[n]$に評価する基本的な計算タスクを実行する能力に焦点を当てる。
論文 参考訳(メタデータ) (2025-03-28T01:40:23Z) - Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers [8.908747084128397]
時間カウントロジックの $textsfK_textt$[#] と RASP の $textsfC-RASP$ を紹介します。
それらが互いに等価であることを示し、それらが結合されていない入力サイズを持つ将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
論文 参考訳(メタデータ) (2024-04-05T20:36:30Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Transformers are RNNs: Fast Autoregressive Transformers with Linear
Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。
我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。
線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文 参考訳(メタデータ) (2020-06-29T17:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。