論文の概要: ReGLA: Refining Gated Linear Attention
- arxiv url: http://arxiv.org/abs/2502.01578v1
- Date: Mon, 03 Feb 2025 18:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:16.193763
- Title: ReGLA: Refining Gated Linear Attention
- Title(参考訳): ReGLA: ゲート付きリニアアテンションの精製
- Authors: Peng Lu, Ivan Kobyzev, Mehdi Rezagholizadeh, Boxing Chen, Philippe Langlais,
- Abstract要約: 線形注意は、標準変圧器に固有の2次時空の複雑さを減らすように設計されている。
我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。
また, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
- 参考スコア(独自算出の注目度): 42.97193398172823
- License:
- Abstract: Recent advancements in Large Language Models (LLMs) have set themselves apart with their exceptional performance in complex language modelling tasks. However, these models are also known for their significant computational and storage requirements, primarily due to the quadratic computation complexity of softmax attention. To mitigate this issue, linear attention has been designed to reduce the quadratic space-time complexity that is inherent in standard transformers. In this work, we embarked on a comprehensive exploration of three key components that substantially impact the performance of the Gated Linear Attention module: feature maps, normalization, and the gating mechanism. We developed a feature mapping function to address some crucial issues that previous suggestions overlooked. Then we offered further rationale for the integration of normalization layers to stabilize the training process. Moreover, we explored the saturation phenomenon of the gating mechanism and augmented it with a refining module. We conducted extensive experiments and showed our architecture outperforms previous Gated Linear Attention mechanisms in extensive tasks including training from scratch and post-linearization with continual pre-training.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑な言語モデリングタスクにおける例外的なパフォーマンスと相違している。
しかし、これらのモデルは、主にソフトマックスの注意の2次計算の複雑さのために、計算と記憶の要求がかなり大きいことでも知られている。
この問題を緩和するため、線形の注意は、標準変圧器に固有の二次的な時空の複雑さを減らすように設計されている。
本研究では,Gated Linear Attentionモジュールの性能に大きく影響する3つの重要なコンポーネント(特徴マップ,正規化,ゲーティング機構)を包括的に調査した。
我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。
そして、トレーニングプロセスを安定化させるために正規化レイヤを統合するためのさらなる根拠を提示しました。
さらに, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
大規模実験を行い, 従来のGated Linear Attention機構より, スクラッチからのトレーニングや, 連続的な事前学習によるポスト線形化を含む広範囲なタスクにおいて, 性能が向上することを示した。
関連論文リスト
- OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。
本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:24:12Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Infusing Lattice Symmetry Priors in Attention Mechanisms for
Sample-Efficient Abstract Geometric Reasoning [45.4605460163454]
抽象と推論(ARC)は、汎用AIへの重要なステップとして仮定されている。
これらの課題を解くには、コア知識の事前の適切な会計によってのみ達成できる極端に一般化が必要である、と我々は主張する。
格子先行を注目マスクに組み込んだモデルであるLatFormerを紹介する。
論文 参考訳(メタデータ) (2023-06-05T18:32:53Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。