論文の概要: ReGLA: Refining Gated Linear Attention
- arxiv url: http://arxiv.org/abs/2502.01578v1
- Date: Mon, 03 Feb 2025 18:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:16.193763
- Title: ReGLA: Refining Gated Linear Attention
- Title(参考訳): ReGLA: ゲート付きリニアアテンションの精製
- Authors: Peng Lu, Ivan Kobyzev, Mehdi Rezagholizadeh, Boxing Chen, Philippe Langlais,
- Abstract要約: 線形注意は、標準変圧器に固有の2次時空の複雑さを減らすように設計されている。
我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。
また, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
- 参考スコア(独自算出の注目度): 42.97193398172823
- License:
- Abstract: Recent advancements in Large Language Models (LLMs) have set themselves apart with their exceptional performance in complex language modelling tasks. However, these models are also known for their significant computational and storage requirements, primarily due to the quadratic computation complexity of softmax attention. To mitigate this issue, linear attention has been designed to reduce the quadratic space-time complexity that is inherent in standard transformers. In this work, we embarked on a comprehensive exploration of three key components that substantially impact the performance of the Gated Linear Attention module: feature maps, normalization, and the gating mechanism. We developed a feature mapping function to address some crucial issues that previous suggestions overlooked. Then we offered further rationale for the integration of normalization layers to stabilize the training process. Moreover, we explored the saturation phenomenon of the gating mechanism and augmented it with a refining module. We conducted extensive experiments and showed our architecture outperforms previous Gated Linear Attention mechanisms in extensive tasks including training from scratch and post-linearization with continual pre-training.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑な言語モデリングタスクにおける例外的なパフォーマンスと相違している。
しかし、これらのモデルは、主にソフトマックスの注意の2次計算の複雑さのために、計算と記憶の要求がかなり大きいことでも知られている。
この問題を緩和するため、線形の注意は、標準変圧器に固有の二次的な時空の複雑さを減らすように設計されている。
本研究では,Gated Linear Attentionモジュールの性能に大きく影響する3つの重要なコンポーネント(特徴マップ,正規化,ゲーティング機構)を包括的に調査した。
我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。
そして、トレーニングプロセスを安定化させるために正規化レイヤを統合するためのさらなる根拠を提示しました。
さらに, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
大規模実験を行い, 従来のGated Linear Attention機構より, スクラッチからのトレーニングや, 連続的な事前学習によるポスト線形化を含む広範囲なタスクにおいて, 性能が向上することを示した。
関連論文リスト
- HyLiFormer: Hyperbolic Linear Attention for Skeleton-based Human Action Recognition [20.45747733568704]
骨格に基づく行動認識に適した新しい双曲線形アテンション変換器HyLiFormerを提案する。
提案手法では,ハイパーボリック・リニア・アテンション(HLA)モジュールと,ハイパーボリック・リニア・アテンション(Hyperbolic Linear Attention, HLA)モジュールを併用して,高速な長距離依存性モデリングを行う。
論文 参考訳(メタデータ) (2025-02-09T12:08:03Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。
本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:24:12Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Infusing Lattice Symmetry Priors in Attention Mechanisms for
Sample-Efficient Abstract Geometric Reasoning [45.4605460163454]
抽象と推論(ARC)は、汎用AIへの重要なステップとして仮定されている。
これらの課題を解くには、コア知識の事前の適切な会計によってのみ達成できる極端に一般化が必要である、と我々は主張する。
格子先行を注目マスクに組み込んだモデルであるLatFormerを紹介する。
論文 参考訳(メタデータ) (2023-06-05T18:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。