論文の概要: Neural Attention: A Novel Mechanism for Enhanced Expressive Power in Transformer Models
- arxiv url: http://arxiv.org/abs/2502.17206v1
- Date: Mon, 24 Feb 2025 14:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:07.007607
- Title: Neural Attention: A Novel Mechanism for Enhanced Expressive Power in Transformer Models
- Title(参考訳): ニューラルアテンション:変圧器モデルにおける表現力増強のための新しいメカニズム
- Authors: Andrew DiGiugno, Ausif Mahmood,
- Abstract要約: 本稿では,ドット積をフィードフォワードネットワークに置き換えることで,トークン間の関係を表現しやすくする手法を提案する。
この研究は、様々なアプリケーションにわたるトランスフォーマーモデルの予測能力を高める効果的な手段として、ニューラルアテンションを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transformer models typically calculate attention matrices using dot products, which have limitations when capturing nonlinear relationships between embedding vectors. We propose Neural Attention, a technique that replaces dot products with feed-forward networks, enabling a more expressive representation of relationships between tokens. This approach modifies only the attention matrix calculation while preserving the matrix dimensions, making it easily adaptable to existing transformer-based architectures. We provide a detailed mathematical justification for why Neural Attention increases representational capacity and conduct controlled experiments to validate this claim. When comparing Neural Attention and Dot-Product Attention, NLP experiments on WikiText-103 show a reduction in perplexity of over 5 percent. Similarly, experiments on CIFAR-10 and CIFAR-100 show comparable improvements for image classification tasks. While Neural Attention introduces higher computational demands, we develop techniques to mitigate these challenges, ensuring practical usability without sacrificing the increased expressivity it provides. This work establishes Neural Attention as an effective means of enhancing the predictive capabilities of transformer models across a variety of applications.
- Abstract(参考訳): 変圧器モデルは一般に点積を用いて注意行列を計算するが、これは埋め込みベクトル間の非線形関係を捉える際に制限がある。
我々は,ドット生成物をフィードフォワードネットワークに置き換える手法であるNeural Attentionを提案し,トークン間の関係をより表現力のある表現を可能にした。
このアプローチは、行列次元を保ちながら注意行列計算のみを修正し、既存のトランスフォーマーベースのアーキテクチャに容易に適応できる。
本稿では,なぜニューラルアテンションが表現能力を高めるのかを数学的に解明し,この主張を検証するための制御実験を行う。
Neural AttentionとDot-Product Attentionを比較すると、WikiText-103でのNLP実験では、パープレキシティが5%以上低下している。
同様に、CIFAR-10とCIFAR-100の実験では、画像分類タスクに匹敵する改善が見られた。
Neural Attentionは高い計算要求をもたらすが、我々はこれらの課題を軽減し、表現力の増大を犠牲にすることなく実用的なユーザビリティを確保する技術を開発する。
この研究は、様々なアプリケーションにわたるトランスフォーマーモデルの予測能力を高める効果的な手段として、ニューラルアテンションを確立する。
関連論文リスト
- Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。
オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文 参考訳(メタデータ) (2024-12-04T11:05:01Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
本稿では,2つの革新点を持つトランスフォーマーアーキテクチャを提案する。
提案手法をREDDデータセット上で検証し, 各種アプライアンスに対してF1スコアを10~15%向上させる結果を得た。
論文 参考訳(メタデータ) (2024-10-12T18:58:45Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Choose a Transformer: Fourier or Galerkin [0.0]
我々は,データ駆動型演算子学習問題に対して,最新技術であるTransformer in Attention Is All You Needの自己注意を適用した。
スケールしたドット積の注意におけるソフトマックス正規化は十分であるが必要ではないことを示し、ペトロフ・ガレルキン射影として線形変項の近似能力を証明した。
本稿では,ビルガース方程式,インターフェースダーシー流,および逆インターフェース係数同定問題を含む3つの演算子学習実験について述べる。
論文 参考訳(メタデータ) (2021-05-31T14:30:53Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。