論文の概要: A Primal-Dual Framework for Transformers and Neural Networks
- arxiv url: http://arxiv.org/abs/2406.13781v1
- Date: Wed, 19 Jun 2024 19:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:25:38.063488
- Title: A Primal-Dual Framework for Transformers and Neural Networks
- Title(参考訳): 変圧器とニューラルネットワークのための最小二次元フレームワーク
- Authors: Tan M. Nguyen, Tam Nguyen, Nhat Ho, Andrea L. Bertozzi, Richard G. Baraniuk, Stanley J. Osher,
- Abstract要約: 自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
- 参考スコア(独自算出の注目度): 52.814467832108875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention is key to the remarkable success of transformers in sequence modeling tasks including many applications in natural language processing and computer vision. Like neural network layers, these attention mechanisms are often developed by heuristics and experience. To provide a principled framework for constructing attention layers in transformers, we show that the self-attention corresponds to the support vector expansion derived from a support vector regression problem, whose primal formulation has the form of a neural network layer. Using our framework, we derive popular attention layers used in practice and propose two new attentions: 1) the Batch Normalized Attention (Attention-BN) derived from the batch normalization layer and 2) the Attention with Scaled Head (Attention-SH) derived from using less training data to fit the SVR model. We empirically demonstrate the advantages of the Attention-BN and Attention-SH in reducing head redundancy, increasing the model's accuracy, and improving the model's efficiency in a variety of practical applications including image and time-series classification.
- Abstract(参考訳): 自己注意は、自然言語処理やコンピュータビジョンなど、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
ニューラルネットワーク層と同様に、これらの注意機構は、しばしばヒューリスティックと経験によって開発される。
変圧器の注意層を構築するための基本的枠組みとして, 自己注意は, ニューラルネットワーク層の形状を持つ支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
私たちのフレームワークを使って、一般的な注意層を実際に用い、次の2つの新しい注意層を提案する。
1)バッチ正規化層から派生したバッチ正規化注意(注意-BN)及び
2) SVRモデルに適合させるために, トレーニングデータが少ないことから, スケールドヘッドによる注意(注意-SH)を導出した。
本研究では,頭部の冗長性を低減し,モデルの精度を向上し,画像や時系列の分類を含む様々な実用的応用におけるモデルの効率性を向上させるために,アテンションBNとアテンション-SHの利点を実証的に示す。
関連論文リスト
- MENTOR: Human Perception-Guided Pretraining for Increased Generalization [5.596752018167751]
MENTOR (huMan pErceptioN-guided preTraining fOr increased geneRalization) を紹介する。
我々は、クラスラベルを使わずに、入力された画像からヒトの唾液マップを学習するためにオートエンコーダを訓練する。
我々は、デコーダ部分を取り除き、エンコーダの上に分類層を追加し、従来の新しいモデルを微調整する。
論文 参考訳(メタデータ) (2023-10-30T13:50:44Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z) - Visual Attention Emerges from Recurrent Sparse Reconstruction [82.78753751860603]
本稿では,人間の視覚的注意機構の2つの特徴,すなわち再発と空間性に基づく新しい注意形態について述べる。
自己注意は単一ステップの最適化と空間制約のないVARSの特殊な場合であることを示す。
VARSは、一般的な視覚変換器における自己注意の代替として容易に利用でき、様々なベンチマークでその堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2022-04-23T00:35:02Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Evolving Attention with Residual Convolutions [29.305149185821882]
本稿では,変圧器の性能向上を目的とした新しいメカニズムを提案する。
提案された注意メカニズムは、複数のタスクに対する様々な最新モデルに対する大幅なパフォーマンス改善を実現する。
論文 参考訳(メタデータ) (2021-02-20T15:24:06Z) - Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks [33.07113523598028]
本研究では,アテンション・プルーニング(Attention Pruning,AP)を提案する。
APは、言語モデリングの注意計算の90%を節約し、機械翻訳とGLUEタスクの約50%を節約し、結果の品質を維持している。
論文 参考訳(メタデータ) (2020-11-20T13:58:21Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - The Costs and Benefits of Goal-Directed Attention in Deep Convolutional
Neural Networks [6.445605125467574]
人々は、失われたキーを見つけるなどのタスクを達成するために、トップダウンでゴール指向の注意を配置します。
分類モデルにおける選択的注意を動機として、自然主義的(写真的)刺激を処理できる目標指向の注意機構を開発した。
我々の注意機構は、前頭前皮質(PFC)からトップダウンの影響を取り入れ、ゴール指向行動を支援する。
論文 参考訳(メタデータ) (2020-02-06T16:42:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。