論文の概要: Beyond Linearity in Attention Projections: The Case for Nonlinear Queries
- arxiv url: http://arxiv.org/abs/2603.13381v1
- Date: Wed, 11 Mar 2026 03:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.143842
- Title: Beyond Linearity in Attention Projections: The Case for Nonlinear Queries
- Title(参考訳): 注意投影における線形性を超えて:非線形クエリの場合
- Authors: Marko Karbevski,
- Abstract要約: デコーダのみおよびエンコーダのみの変換器では、クエリプロジェクション$W_Q$は、顕著なパフォーマンス劣化なしにアイデンティティに設定できる。
mathbbRd の $W_Q を $Q(X) = X + f_(X)$ という形の非線形残余で置き換える。
GPT-3小型モデルに対する実験では、ベースラインよりも一貫した改善が見られ、12.5%の非埋め込みモデルよりも快適に性能が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent algebraic analysis shows that in decoder-only and encoder-only transformers, the Query projection $W_Q$ may be set to identity without noticeable performance deterioration. This is possible because attention depends on $X$ only through the products $XW_Q, XW_K, XW_V$, allowing basis transformations to be absorbed by adjacent layers and propagated through the network. We replace $W_Q \in \mathbb{R}^{d \times d}$ with a nonlinear residual of the form $Q(X) = X + f_θ(X)$, where $f_θ$ is a bottleneck MLP with $d^2 + O(d)$ parameters. The identity term anchors the nonlinearity to a known-good prior. Experiments on GPT-3 small style models show consistent improvement over the baseline, comfortably outperforming a model with 12.5% more non-embedding parameters. These results motivate investigation at larger scales and across modalities.
- Abstract(参考訳): 最近の代数解析では、デコーダのみおよびエンコーダのみの変換器では、クエリプロジェクション$W_Q$は、顕著な性能劣化を伴わずにアイデンティティに設定できる。
これは、XW_Q、XW_K、XW_V$といった製品を通してのみ、注意が$X$に依存するためである。
W_Q \in \mathbb{R}^{d \times d}$ を $Q(X) = X + f_θ(X)$ という形の非線形残差で置き換えるが、$f_θ$ は $d^2 + O(d)$ パラメータを持つボトルネック MLP である。
恒等項は、非線形性を既知の良い前兆に固定する。
GPT-3の小型モデルの実験では、ベースラインよりも一貫した改善が見られ、12.5%の非埋め込みパラメータを持つモデルよりも快適に優れている。
これらの結果は、大規模な調査と、モダリティをまたいだ調査を動機付けている。
関連論文リスト
- Learning the Intrinsic Dimensionality of Fermi-Pasta-Ulam-Tsingou Trajectories: A Nonlinear Approach using a Deep Autoencoder Model [0.0]
軌道は次元$mast = 2$の非線形多様体の上にあり、6,4$次元位相空間に埋め込まれていることが分かる。
この次元は$mast = 3$ at $= 1.1$に増加し、対称性の破れ遷移と一致する。
論文 参考訳(メタデータ) (2026-01-27T12:59:29Z) - Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias [0.0]
パラメータノルムの族をスケールするために、統一的で高確率な特徴を与える。
次に、降下によって訓練された線形ネットワークについて研究する。
論文 参考訳(メタデータ) (2025-09-25T13:59:22Z) - Symmetry-Breaking Descent for Invariant Cost Functionals [0.0]
タスクコストの関数的$W : Hs(M) を mathbbR$ に還元する問題について検討する。
信号の対称性を破る変形はコストを低減できることを示す。
論文 参考訳(メタデータ) (2025-05-19T15:06:31Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Statistical Query Lower Bounds for List-Decodable Linear Regression [55.06171096484622]
本稿では,リスト復号化可能な線形回帰問題について考察する。
我々の主な成果は、この問題に対して$dmathrmpoly (1/alpha)$の統計的クエリ(SQ)の低いバウンダリである。
論文 参考訳(メタデータ) (2021-06-17T17:45:21Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Estimating Stochastic Linear Combination of Non-linear Regressions
Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。
私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文 参考訳(メタデータ) (2020-10-19T07:15:38Z) - Learning nonlinear dynamical systems from a single trajectory [102.60042167341956]
我々は、$x_t+1=sigma(Thetastarx_t)+varepsilon_t$という形の非線形力学系を学ぶアルゴリズムを導入する。
最適なサンプル複雑性と線形ランニング時間を持つ単一軌道から重み行列$Thetastar$を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-30T10:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。