論文の概要: The Effect of Attention Head Count on Transformer Approximation
- arxiv url: http://arxiv.org/abs/2510.06662v1
- Date: Wed, 08 Oct 2025 05:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.316183
- Title: The Effect of Attention Head Count on Transformer Approximation
- Title(参考訳): 変圧器近似における注意頭数の影響
- Authors: Penghao Yu, Haotian Jiang, Zeyu Bao, Ruoxi Yu, Qianxiao Li,
- Abstract要約: 変圧器の近似特性について検討し,特に注目点数の役割に着目した。
具体的には、十分な数の頭を持つ変圧器は効率的な近似を許容するが、多くの頭を持つ場合、パラメータの数は少なくとも$O(1/epsiloncT)$で、一定の$c$とシーケンス長$T$でスケールしなければならない。
- 参考スコア(独自算出の注目度): 26.943083432025926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer has become the dominant architecture for sequence modeling, yet a detailed understanding of how its structural parameters influence expressive power remains limited. In this work, we study the approximation properties of transformers, with particular emphasis on the role of the number of attention heads. Our analysis begins with the introduction of a generalized $D$-retrieval task, which we prove to be dense in the space of continuous functions, thereby providing the basis for our theoretical framework. We then establish both upper and lower bounds on the parameter complexity required for $\epsilon$-approximation. Specifically, we show that transformers with sufficiently many heads admit efficient approximation, whereas with too few heads, the number of parameters must scale at least as $O(1/\epsilon^{cT})$, for some constant $c$ and sequence length $T$. To the best of our knowledge, this constitutes the first rigorous lower bound of this type in a nonlinear and practically relevant setting. We further examine the single-head case and demonstrate that an embedding dimension of order $O(T)$ allows complete memorization of the input, where approximation is entirely achieved by the feed-forward block. Finally, we validate our theoretical findings with experiments on both synthetic data and real-world tasks, illustrating the practical relevance of our results.
- Abstract(参考訳): トランスフォーマーはシーケンスモデリングにおいて支配的なアーキテクチャとなっているが、その構造パラメータが表現力にどのように影響するかの詳細な理解は依然として限られている。
本研究では,変圧器の近似特性について検討し,特に注目点数の役割に着目した。
解析は一般化された$D$-retrievalタスクの導入から始まり、連続函数の空間に密接であることが証明され、理論的枠組みの基礎となる。
次に、$\epsilon$-approximation に必要なパラメータ複雑性の上限と下限の両方を確立する。
具体的には、十分な数の頭を持つ変圧器は効率的な近似を許容するが、多くの頭を持つ場合、パラメータの数は少なくとも$O(1/\epsilon^{cT})$で、一定の$c$とシーケンス長$T$でスケールしなければならない。
我々の知る限りでは、これは非線形で実践的に関係のある設定において、このタイプの最初の厳密な下界を構成する。
さらに、シングルヘッドの場合を調べ、$O(T)$の埋め込み次元が入力の完全記憶を可能にし、そこではフィードフォワードブロックによって近似が完全に達成されることを示した。
最後に,合成データと実世界の課題に関する実験により理論的知見を検証し,その結果の実用的妥当性について考察した。
関連論文リスト
- Allocation of Parameters in Transformers [31.7433692306049]
モデルパラメーター(主に注意頭と頭部次元)が、表現性と効率のバランスをとるために層全体にどのように配置されるべきかを検討する。
ソフトマックスアクティベーションのエンハンサレーション挙動を理論と実験の両方で実証する。
本稿では,トランスフォーマー層にまたがるアテンションヘッドと次元を割り当てるための基本戦略を提案する。
論文 参考訳(メタデータ) (2025-10-04T11:22:16Z) - Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - Exact Sequence Classification with Hardmax Transformers [0.0]
我々は、ハードマックスのアテンショントランスフォーマーが$N$ラベル付きシーケンスのデータセットを$mathbbRd$, $dgeq 2$で完全に分類することを証明している。
具体的には、$mathbbRd$で任意の長さの$N$シーケンスを与えられた場合、$mathcalO(N)$ブロックと$mathcalO(Nd)$パラメータで変換器を構築し、このデータセットを完全に分類する。
論文 参考訳(メタデータ) (2025-02-04T12:31:00Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。