論文の概要: ReGLA: Refining Gated Linear Attention
- arxiv url: http://arxiv.org/abs/2502.01578v2
- Date: Wed, 05 Feb 2025 21:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 13:23:05.919574
- Title: ReGLA: Refining Gated Linear Attention
- Title(参考訳): ReGLA: ゲート付きリニアアテンションの精製
- Authors: Peng Lu, Ivan Kobyzev, Mehdi Rezagholizadeh, Boxing Chen, Philippe Langlais,
- Abstract要約: 線形注意は、標準変圧器に固有の2次時空の複雑さを減らすように設計されている。
我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。
また, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
- 参考スコア(独自算出の注目度): 42.97193398172823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have set themselves apart with their exceptional performance in complex language modelling tasks. However, these models are also known for their significant computational and storage requirements, primarily due to the quadratic computation complexity of softmax attention. To mitigate this issue, linear attention has been designed to reduce the quadratic space-time complexity that is inherent in standard transformers. In this work, we embarked on a comprehensive exploration of three key components that substantially impact the performance of the Gated Linear Attention module: feature maps, normalization, and the gating mechanism. We developed a feature mapping function to address some crucial issues that previous suggestions overlooked. Then we offered further rationale for the integration of normalization layers to stabilize the training process. Moreover, we explored the saturation phenomenon of the gating mechanism and augmented it with a refining module. We conducted extensive experiments and showed our architecture outperforms previous Gated Linear Attention mechanisms in extensive tasks including training from scratch and post-linearization with continual pre-training.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑な言語モデリングタスクにおける例外的なパフォーマンスと相違している。
しかし、これらのモデルは、主にソフトマックスの注意の2次計算の複雑さのために、計算と記憶の要求がかなり大きいことでも知られている。
この問題を緩和するため、線形の注意は、標準変圧器に固有の二次的な時空の複雑さを減らすように設計されている。
本研究では,Gated Linear Attentionモジュールの性能に大きく影響する3つの重要なコンポーネント(特徴マップ,正規化,ゲーティング機構)を包括的に調査した。
我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。
そして、トレーニングプロセスを安定化させるために正規化レイヤを統合するためのさらなる根拠を提示しました。
さらに, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
大規模実験を行い, 従来のGated Linear Attention機構より, スクラッチからのトレーニングや, 連続的な事前学習によるポスト線形化を含む広範囲なタスクにおいて, 性能が向上することを示した。
関連論文リスト
- Offline Model-Based Optimization: Comprehensive Review [61.91350077539443]
オフライン最適化は、オフラインデータセットのみを使用してブラックボックス機能の最適化を目標とする、科学とエンジニアリングの基本的な課題である。
モデルベース最適化の最近の進歩は、オフライン固有の代理モデルと生成モデルを開発するために、ディープニューラルネットワークの一般化能力を活用している。
科学的な発見を加速させる効果が増大しているにもかかわらず、この分野は包括的なレビューを欠いている。
論文 参考訳(メタデータ) (2025-03-21T16:35:02Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - HyLiFormer: Hyperbolic Linear Attention for Skeleton-based Human Action Recognition [20.45747733568704]
骨格に基づく行動認識に適した新しい双曲線形アテンション変換器HyLiFormerを提案する。
提案手法では,ハイパーボリック・リニア・アテンション(HLA)モジュールと,ハイパーボリック・リニア・アテンション(Hyperbolic Linear Attention, HLA)モジュールを併用して,高速な長距離依存性モデリングを行う。
論文 参考訳(メタデータ) (2025-02-09T12:08:03Z) - Test-time regression: a unifying framework for designing sequence models with associative memory [24.915262407519876]
シーケンスモデルを理解し、導出するための統一フレームワークを導入する。
我々は、連想的リコールを2段階のプロセス、記憶と検索として形式化し、回帰問題としてキャストする。
我々の研究は、古典的回帰手法によるシーケンスモデリングを橋渡しし、より強力で理論的に原則化されたアーキテクチャを開発するための道を開く。
論文 参考訳(メタデータ) (2025-01-21T18:32:31Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。
本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。
ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文 参考訳(メタデータ) (2024-10-12T20:26:01Z) - RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。
本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:24:12Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Self-Supervised Learning with Generative Adversarial Networks for Electron Microscopy [0.0]
本稿では,自己教師付き事前学習が,下流タスクの高精度な微調整をいかに促進するかを示す。
我々は、電子顕微鏡の文脈において、下流の様々なタスクにまたがる自己教師型事前学習の汎用性を実証する。
論文 参考訳(メタデータ) (2024-02-28T12:25:01Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。