論文の概要: GLU Attention Improve Transformer
- arxiv url: http://arxiv.org/abs/2507.00022v2
- Date: Sun, 06 Jul 2025 05:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.447187
- Title: GLU Attention Improve Transformer
- Title(参考訳): GLUアテンションによる変圧器の改良
- Authors: Zehao Wang,
- Abstract要約: GLU(Gated Linear Units)は、ニューラルネットワークの性能向上に大きな可能性を示している。
GLUアテンションと呼ばれる新しい注意機構を導入し、アテンションの値に非線形性を導入する。
私の実験では、GLU注意は、余分なパラメータや無視可能な計算コストを伴って、テキストと視覚のモダリティ間のモデル性能と収束速度を向上することを示した。
- 参考スコア(独自算出の注目度): 9.375599754791637
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Gated Linear Units (GLU) have shown great potential in enhancing neural network performance. In this paper, I introduce a novel attention mechanism called GLU Attention, which introduces nonlinearity into the values of Attention. My experiments demonstrate that GLU Attention improves both model performance and convergence speed across text and vision modalities with zero additional parameters and negligible computational costs. GLU Attention is lightweight and can seamlessly integrate with other technologies, such as Flash Attention, Rotary Position Embedding (RoPE), and various Multi-Head Attention (MHA) variants such as Grouped-Query Attention (GQA). This project is open-sourced at github.
- Abstract(参考訳): GLU(Gated Linear Units)は、ニューラルネットワークの性能向上に大きな可能性を示している。
本稿では,GLUアテンションと呼ばれる新しいアテンション機構を導入し,アテンションの値に非線形性を導入する。
私の実験では、GLU注意は、余分なパラメータや無視可能な計算コストを伴って、テキストと視覚のモダリティ間のモデル性能と収束速度を向上することを示した。
GLU Attentionは軽量で、Flash Attention、RoPE(Rotary Position Embedding)、Grouped-Query Attention(GQA)のような様々なマルチヘッドアテンション(MHA)など他の技術とシームレスに統合できる。
このプロジェクトはgithubでオープンソース化されている。
関連論文リスト
- LoLA-SpecViT: Local Attention SwiGLU Vision Transformer with LoRA for Hyperspectral Imaging [6.360399841791849]
軽量なスペクトルビジョン変換器であるtextbfLoLA-SpecViT (Low-rank adaptation Local Attention Spectral Vision Transformer) を提案する。
提案モデルでは,3次元畳み込みスペクトルフロントエンドと局所窓ベースの自己アテンションを組み合わせ,スペクトル特徴抽出と空間一貫性の両立を図る。
我々のフレームワークは、農業、環境モニタリング、リモートセンシング分析における実世界のHSIアプリケーションに対して、スケーラブルで一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-21T16:46:00Z) - Gating is Weighting: Understanding Gated Linear Attention through In-context Learning [48.90556054777393]
GLA(Gated Linear Attention)アーキテクチャには、MambaやRWKVといった競合モデルが含まれている。
重み付きプレコンディショニング・グラディエント・ディフレクション(WPGD)アルゴリズムの一般クラスを多層GLAで実装可能であることを示す。
穏やかな条件下では、一意の WPGD 解に対応する大域的最小値の存在と一意性(スケーリングまで)を確立する。
論文 参考訳(メタデータ) (2025-04-06T00:37:36Z) - Hadamard Attention Recurrent Transformer: A Strong Baseline for Stereo Matching Transformer [54.97718043685824]
Adamard Attention Recurrent Stereo Transformer(HART)について紹介する。
HARTには、以下のコンポーネントを組み込んだ新しいアテンションメカニズムが含まれている。
反映的な領域では、HARTはKITTI 2012ベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2025-01-02T02:51:16Z) - HAAT: Hybrid Attention Aggregation Transformer for Image Super-Resolution [6.583111551092333]
本稿では,Hybrid Attention Aggregation Transformer(HAAT)について紹介する。
Swin-Dense-Residual-Connected Blocks (SDRCB)とHybrid Grid Attention Blocks (HGAB)を統合して構築する。
HGABは、チャネルアテンション、スパースアテンション、ウィンドウアテンションを取り入れ、非局所的特徴融合を改善し、より視覚的に魅力的な結果を得る。
論文 参考訳(メタデータ) (2024-11-27T02:47:17Z) - Cross-Temporal Spectrogram Autoencoder (CTSAE): Unsupervised Dimensionality Reduction for Clustering Gravitational Wave Glitches [12.653249139353608]
クロステンポラル・スペクトログラム・オートエンコーダ (CTSAE) は、重力波グリッチの次元減少とクラスタリングの先駆的な方法である。
メインチャネルのGravitySpy O3データセットをトレーニングし,評価し,クラスタリングタスクにおける優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-23T22:54:51Z) - GAFlow: Incorporating Gaussian Attention into Optical Flow [62.646389181507764]
我々はガウス的注意(GA)を光学フローモデルに押し込み、表現学習中に局所特性をアクセントする。
本稿では,既存の Transformer ブロックに簡単に接続可能な新しい Gaussian-Constrained Layer (GCL) を提案する。
動作解析のための新しいガウス誘導注意モジュール(GGAM)を提供する。
論文 参考訳(メタデータ) (2023-09-28T07:46:01Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Refined Gate: A Simple and Effective Gating Mechanism for Recurrent
Units [68.30422112784355]
本稿では,この問題に対処する一般ゲートリカレントニューラルネットワークにおける新しいゲーティング機構を提案する。
提案したゲートは、抽出された入力特徴とバニラゲートの出力を直接的にショートする。
LSTM, GRU, MGUの3種類のゲートRNNに対して, 提案したゲーティング機構を検証する。
論文 参考訳(メタデータ) (2020-02-26T07:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。