論文の概要: Convexifying Transformers: Improving optimization and understanding of
transformer networks
- arxiv url: http://arxiv.org/abs/2211.11052v1
- Date: Sun, 20 Nov 2022 18:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:16:52.117246
- Title: Convexifying Transformers: Improving optimization and understanding of
transformer networks
- Title(参考訳): 対流変圧器:変圧器ネットワークの最適化と理解の改善
- Authors: Tolga Ergen, Behnam Neyshabur, Harsh Mehta
- Abstract要約: 本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。
まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。
凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
- 参考スコア(独自算出の注目度): 56.69983975369641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the fundamental mechanism behind the success of transformer
networks is still an open problem in the deep learning literature. Although
their remarkable performance has been mostly attributed to the self-attention
mechanism, the literature still lacks a solid analysis of these networks and
interpretation of the functions learned by them. To this end, we study the
training problem of attention/transformer networks and introduce a novel convex
analytic approach to improve the understanding and optimization of these
networks. Particularly, we first introduce a convex alternative to the
self-attention mechanism and reformulate the regularized training problem of
transformer networks with our alternative convex attention. Then, we cast the
reformulation as a convex optimization problem that is interpretable and easier
to optimize. Moreover, as a byproduct of our convex analysis, we reveal an
implicit regularization mechanism, which promotes sparsity across tokens.
Therefore, we not only improve the optimization of attention/transformer
networks but also provide a solid theoretical understanding of the functions
learned by them. We also demonstrate the effectiveness of our theory through
several numerical experiments.
- Abstract(参考訳): トランスフォーマーネットワークの成功の背後にある基本的なメカニズムを理解することは、ディープラーニング文学において依然として未解決の問題である。
彼らの顕著なパフォーマンスは、主に自己認識機構によるものであるが、これらのネットワークのしっかりとした分析とそれらが学習した関数の解釈がまだ欠けている。
そこで本研究では,アテンション/トランスフォーマーネットワークのトレーニング問題を考察し,これらのネットワークの理解と最適化を改善するための新しい凸解析手法を提案する。
特に,まず,自己着脱機構に代わる凸方式を導入し,代替凸に注目した変圧器ネットワークの正規化トレーニング問題を再構成する。
そこで我々は,この改定を,解釈可能かつ容易に最適化できる凸最適化問題とみなした。
さらに,凸解析の副産物として,トークン間のスパーシティを促進する暗黙の正規化機構を明らかにする。
したがって、注意/変圧器ネットワークの最適化を改良するだけでなく、それらが学習した関数に関する理論的な理解も提供する。
また,いくつかの数値実験により,本理論の有効性を示す。
関連論文リスト
- What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。
中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。
これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文 参考訳(メタデータ) (2024-10-14T18:15:02Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - CF-OPT: Counterfactual Explanations for Structured Prediction [47.36059095502583]
ディープニューラルネットワークの最適化レイヤは構造化学習で人気を博し、さまざまなアプリケーションにおける最先端技術の改善に寄与している。
しかし、これらのパイプラインは2つの不透明な層(ディープニューラルネットワークのような非常に非線形な予測モデル)と、通常複雑なブラックボックス解決器である最適化層)で構成されているため、解釈性に欠ける。
我々のゴールは、このような手法の透明性を向上させることであり、対実的な説明を提供することである。
論文 参考訳(メタデータ) (2024-05-28T15:48:27Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Convergence Analysis and Implicit Regularization of Feedback Alignment
for Deep Linear Networks [27.614609336582568]
ニューラルネットワークのトレーニングのためのバックプロパゲーションの効率的な代替手段であるフィードバックアライメント(FA)アルゴリズムを理論的に解析する。
我々は、連続力学と離散力学の両方に対して、ディープ線形ネットワークのレートで収束保証を提供する。
論文 参考訳(メタデータ) (2021-10-20T22:57:03Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。