論文の概要: Transformers as Support Vector Machines
- arxiv url: http://arxiv.org/abs/2308.16898v2
- Date: Thu, 7 Sep 2023 17:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 16:10:47.953537
- Title: Transformers as Support Vector Machines
- Title(参考訳): サポートベクターマシンとしてのトランスフォーマー
- Authors: Davoud Ataee Tarzanagh, Yingcong Li, Christos Thrampoulidis, Samet
Oymak
- Abstract要約: 自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
- 参考スコア(独自算出の注目度): 54.642793677472724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since its inception in "Attention Is All You Need", transformer architecture
has led to revolutionary advancements in NLP. The attention layer within the
transformer admits a sequence of input tokens $X$ and makes them interact
through pairwise similarities computed as softmax$(XQK^\top X^\top)$, where
$(K,Q)$ are the trainable key-query parameters. In this work, we establish a
formal equivalence between the optimization geometry of self-attention and a
hard-margin SVM problem that separates optimal input tokens from non-optimal
tokens using linear constraints on the outer-products of token pairs. This
formalism allows us to characterize the implicit bias of 1-layer transformers
optimized with gradient descent: (1) Optimizing the attention layer with
vanishing regularization, parameterized by $(K,Q)$, converges in direction to
an SVM solution minimizing the nuclear norm of the combined parameter
$W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm
objective. We characterize this convergence, highlighting that it can occur
toward locally-optimal directions rather than global ones. (2) Complementing
this, we prove the local/global directional convergence of gradient descent
under suitable geometric conditions. Importantly, we show that
over-parameterization catalyzes global convergence by ensuring the feasibility
of the SVM problem and by guaranteeing a benign optimization landscape devoid
of stationary points. (3) While our theory applies primarily to linear
prediction heads, we propose a more general SVM equivalence that predicts the
implicit bias with nonlinear heads. Our findings are applicable to arbitrary
datasets and their validity is verified via experiments. We also introduce
several open problems and research directions. We believe these findings
inspire the interpretation of transformers as a hierarchy of SVMs that
separates and selects optimal tokens.
- Abstract(参考訳): Attention Is All You Need"の発端から、トランスフォーマーアーキテクチャはNLPの革命的な進歩につながっている。
変換器内のアテンション層は入力トークンのシーケンスを$X$として、Softmax$(XQK^\top X^\top)$として計算されたペアの類似性を通じて相互作用させる。
本研究では,トークンペアの外積に対する線形制約を用いた最適入力トークンと最適入力トークンを分離する,自己アテンションの最適化手法とハードマージンSVM問題との形式的等価性を確立する。
この定式化により、勾配降下に最適化された1層トランスフォーマーの暗黙バイアスを特徴づけることができる: 1) パラメータを$(K,Q)$でパラメータ化した注意層を、組み合わせたパラメータ$W=KQ^\top$の核ノルムを最小化するSVMソリューションに収束させる。
その代わり、$W$による直接パラメータ化はフロベニウスノルムの目的を最小化する。
我々はこの収束を特徴付け、グローバルな方向ではなく、局所的な最適方向に向けて起こることを強調した。
2) これの補足として, 幾何条件下での勾配降下の局所的・言語的方向収束を証明した。
さらに, 過パラメータ化はsvm問題の実現可能性を確保し, 静止点のない良性最適化景観を保証し, 大域的収束を触媒することを示す。
3) この理論は主に線形予測ヘッドに適用できるが, 非線形ヘッドによる暗黙バイアスを予測するより一般的なsvm等価性を提案する。
本研究は任意のデータセットに適用でき,その妥当性を実験により検証する。
オープンな問題や研究の方向性も紹介する。
これらの発見は、最適なトークンを分離し、選択するSVMの階層としてのトランスフォーマーの解釈を促していると信じている。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Implicit Bias and Fast Convergence Rates for Self-attention [30.08303212679308]
トランスフォーマーのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、その優れたパフォーマンスを駆動する。
固定線形復号器をバイナリに固定した自己アテンション層をトレーニングする際の勾配降下(GD)の暗黙バイアスについて検討した。
W_t$ から $W_mm$ に対する最初の有限時間収束率と、注意写像のスペーサー化率を提供する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Kernel Support Vector Machine Classifiers with the $\ell_0$-Norm Hinge
Loss [3.007949058551534]
Support Vector Machine (SVM)は、バイナリ分類問題において最も成功した機械学習技術の1つである。
本論文は, ヒンジ損失を持つベクトル($ell$-KSVM)に集中し, ヒンジ損失と$ell_$normの複合関数である。
合成データセットと実データセットの実験は、$ell_$-KSVMが標準のKSVMと同等の精度を達成可能であることを示すために照らされている。
論文 参考訳(メタデータ) (2023-06-24T14:52:44Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Hybrid Model-based / Data-driven Graph Transform for Image Coding [54.31406300524195]
予測内残差ブロックを符号化するハイブリッドモデルベース/データ駆動方式を提案する。
変換行列の最初の$K$固有ベクトルは、安定性のための非対称離散正弦変換(ADST)のような統計モデルから導かれる。
WebPをベースライン画像として使用することにより、我々のハイブリッドグラフ変換は、デフォルトの離散コサイン変換(DCT)よりもエネルギーの圧縮が良く、KLTよりも安定性がよいことを示す。
論文 参考訳(メタデータ) (2022-03-02T15:36:44Z) - Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。
Open GymAI連続制御タスクの結果。
論文 参考訳(メタデータ) (2022-02-28T15:16:23Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。